主成分分析法.pdf

主成分分析法.pdf

ID:52457856

大小:1.07 MB

页数:45页

时间:2020-03-27

主成分分析法.pdf_第1页
主成分分析法.pdf_第2页
主成分分析法.pdf_第3页
主成分分析法.pdf_第4页
主成分分析法.pdf_第5页
资源描述:

《主成分分析法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第七章主成分分析§7.1引言§7.2总体的主成分§7.3样本的主成分§7.1引言主成分分析(或称主分量分析,principalcomponentanalysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。

2、寻找主成分的正交旋转旋转公式:yxcosxsin112yxsinxcos212§7.2总体的主成分一、主成分的定义及导出二、主成分的性质三、从相关阵出发求主成分一、主成分的定义及导出设x(,xx,L,x)为一个p维随机向量,Exμ,12pVxΣ。考虑如下的线性变换y1ax111ax212Laxpp1ax1希望在约束条件aa111下寻求向量a1,使得Vy1a1Σa1达到最大,y1就称为第一主成分。设12Lp

3、0为Σ的特征值,titt12i,i,L,tpi,ip1,2,L,为相应的单位特征向量,且相互正交。则可求得第一主成分为y1tx111tx212Ltxpp1tx1它的方差具有最大值。1如果第一主成分所含信息不够多,还不足以代表原始的p个变量,则需考虑再使用一个综合变量y22ax,为使y2所含的信息与y1不重叠,应要求Covyy12,0我们在此条件和约束条件aa221下寻求向量a2,使得Vy2a2Σa2达到最大,所求的y2称为第二主成分。求得的第二主成分

4、为y2tx121tx222Ltxpp2tx2其方差为2。一般来说,x的第i主成分是指:在约束条件aaii1和Covyyki,0,k1,2,L,i1下寻求ai,使得VyiaiΣai达到最大。第i主成分为ytxtxLLtxtx,i1,2,,pi1i12i2pipi主成分的几何意义在几何上,ti表明了第i主成分的方向,yi是x在ti上的投影值(即投影长度),i是这些值的方差,它反映了在ti上投影点的分散程度。记yyy12,,L,yp,则

5、主成分向量y与原始向量x有如下关系:yxTp该正交变换的几何意义是将R中由xx12,,L,xp构成的原p维坐标轴作一正交旋转,一组正交单位向量tt12,,L,tp表明了p个新坐标轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。二、主成分的性质1.主成分向量的协方差矩阵VyΛ其中Λdiag12,,L,p,即Vyii,i1,2,L,p,且yy12,,L,yp互不相关。2.主成分的总方差由于trATtrΣTtrΣTTtrΣ故pppp

6、iii或VyiiVxii11ii11总方差中属于第i主成分yi(或被yi所解释)的比例为piii1称为主成分yi的贡献率。第一主成分y1的贡献率最大,表明它解释原始变量xx12,,L,xp的能力最强,而yy23,,L,yp的解释能力依次递减。主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。前m个主成分的贡献率之和mpiiii11称为主成分yy12,,L,ym的

7、累计贡献率,它表明yy12,,L,ym解释xx12,,L,xp的能力。通常取(相对于p)较小的m,使得累计贡献达到一个较高的百分比(如80%~90%)。此时,yy12,,L,ym可用来代替xx12,,L,xp,从而达到降维的目的,而信息的损失却不多。3.原始变量xi与主成分yk之间的相关系数kxyi,ktik,ik,1,2,L,pii在实际应用中,通常我们只对xii(1,2,L,)p与ykk(1,2,L,)m的相关系数感兴趣。三、从相关阵出发求主成分现比较本例中从R出发

8、和例7.2.2中从Σ出发的主成分计算结果。从出发的*的贡献率0.705明显小于Ry1从Σ出发的y1的贡献率0.938,事实上,原始变量方差之间的差异越大,这一点也就倾向于越明显,***(7.2.15)式有助于我们理解之。yyy1,,23可用标准化前的原变量表达如下:*xx1122x33y0.6270.4970.600141100.157x110.497x220.060x33*xx1122x33

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。