资源描述:
《第4章主成份分析与典型相关分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第4章主成份分析与典型相关分析通过变换:川低维(主成份)近似高维(较全面)信息§4.1主成份分析1.二维的例子设X=(XPX2),E(X)=O,观测数据(x/px/2),若乙,X?的相关系数
2、p
3、=l,则(勺,兀p)在肓线上.作)1】=xicos&+兀诅sin0,z=1-n则在轴上,分散性(样木方差)最人,即选择&使K=X]cos0+X2sin0的Var&)最大,乙基本上反映了二维信息.完整JK]=X
4、cos&+XzSinOy2=-X]sin0+X2cos0分别称为第一主成份和第二主成份.2.总体主成份(主成份至多p个)⑴定义设X=(X“X2,…协方差为Cov(X》=
5、=©•)冲=E[(X-E(X))(X-E(X))r]1)=a[X=auXx+a]2X2H—+aipXp使VarCy,)=Var(afX^=afa,达到最大,Ra[a}=1(否则可无界),由此得第一主成份.1)作Y2=a^X=a2}X}+a22X2Ha2pXp使Var(y2)=Vag;Q炉a;2达到最人,.Fl.a^a2=1He与前向量垂直条件:Cov(/2,^)=Cov(«rX,)=a[严0,由此得第二主成份.1)一般若X,还不够,则继续作h=ci;X=ak]Xl+0显2+…+a妙X。在a[ak=1及Cov(h,yj=a勿产0,心1〜£一1下,使Var(r,)=a^a&达
6、到最人,第£主成份.(2)总体主成份的求法设刀的特征值为21>^>--->2/;>0,正交化单位特征向量为勺,勺,…上〃,则第£个主成份表为Yk=ekX=ekX+%*2+・・・+0切X/,jVar(r,)=^k=^f[covap;)之耗z畀X(证)令戶二他,^,…,^),贝UP^PA==6鉴(入,易,…,心)对乙=*X,a他=1,有Var(YJ=a勸,=?P&^T(J)令z^iz=2
7、才+入z;+•••+血z;<且応=1只有当Z=PTa}=
8、(标准单位向量)时,最大入,即取^eP
9、=1=0且有Cov(Y2yY{)=a^e产龍严0Var(y2)=«^2=EP&PMt(
10、72)令z^PTa.‘z/iz=+入&hHA7p11、计贡献率第£个主成份人的贡献率:A/EA-VarCyjRvarCXJ//=1//=!由此可知,第1个主成份贡献率最大,依次而弱.也,…必的累计贡献率:实用中,耍求累计达到80%~9()%的前巾个主成份.例4.1设X=(X^X2,X3)t的协方差为1-20Z=-250002求各主成份.解:入23"83,2.00,0.17,-0.383P=0.924000.92400.383代入Y=PtX即可.10第一丄成份的贡献率:5,835.83+2.00+0.17前两个主成份的累计贡献率:=98%5,83+2,005.83+2.00+0.17足矣.(4)标准化变量的主成份原始量纲不一,
12、人方差不一定是主要的,有时不当.1)先标准化其中E(Xk)=/Lik,Var(XA.)=akk,令X、(X;,X;,・・・,X;)T则Cov(Xp)=(p片p==X的相关系数阵Pij=E(X;X;)=Cov(X,,Xj)2)对X*作主成份分析即求"的特征值和相应的正交单位化特征向量标准化后的主成份ppP*=1R=1k=第R个主成份的贡献率:么Pm/X,X,…必:的累计贡献率:£2;P.k=l/例4.2设X=(XliX2)r的协方差和相关系数阵分别为41爲]和厂10.4_0.41分别进行主成份分析.解:1)对刀,冇人2=10016,0.84,=0.0400.999二0.9
13、99-0.040代入Y=PtX,得之一:£=0.040X1+0.999X2第一主成份贡献率:100」6/101=99.2%,且其中X?占了绝人部分.2)对“,有几:2=140.6,P=0.7070.7070.707-0.707代入(Y;,Y;)T=P4TX得其一Y;=0・707X;+0・707X;=0.707(X]-h)+0.707•X2g“2易见/占了主要比例.笫一主成份的贡献率:^-=—=70%.P2实用中,多应从相关系数矩阵出发.3.样本主成分设样本观测值为乞=(兀1,召=]〜〃实际问题1npxp—工(£•一元)(乞一