2、原理、方法和手段在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带來困难。一般说来,虽然每个变量都提供了一定的信息,但具重耍性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的冃的。⑴总体主成分1)定义设X.,X2,…,Xp为某实际问题所涉及的P个随机变量。记X=(XuX2,…,Xp)T,
3、其协方差矩阵为s=(叽严E[(X-E(X))(X-E(X))T],它是一个P阶非负定矩阵。设J2=ZfX=Z21X1+/22X2+...+Z2pXp(1)Yp=l;X=lplX^lp2X2^^lppXp则有V«r(y.)=Var(lJX)=l:S/z=・・・,p,C吨,yp=Cov(lfXJ;X)=/:马J=1,2,・・・,p第i个主成分:一般地,在约束条件必=1及Cov(y.,y,)=z;sz,=下,求h使Var(Yi)达到最大,由此L所确定的Y"X称为X”X2,…,Xp的第i个主成分。2)总体主成分的计算设刀是X=(Xl,X2,
4、...,Xp)T的协方差矩阵,E的特征值及相应的正交单位化特征向量分别为2,>22>-・22卩»0及则X的第i个主成分为E="X=®[X[+0丿2+…+J=1,2,・・・,P,(3)此时JVar(Yi)=e]Se.=2-,i=1,2,・・・,p,[Cov(Yi9Yk)=elZek3)总体主成分的性质■主成分的协方差矩阵及总方差记y=(y1,y2,...,yp)r为主成分向量,则y=px,其中卩=(勺灼,・・・“丿,且Cov(Y)=Cov(PTX)=PtLP=&=Dbg(备22,・・・,心),由此得主成分的总方差为£)=SA=tr(P
5、TZP)=tr^PPT)=Zr(S)=£Va(XJ,£=
6、£=
7、
8、=
9、即主成分分析是把p个原始变量X.,X2,…,XP的总方差1=1分解成P个互不相关变量Y.,丫2,…,Y”的方差Z和,即£畑(乙)1=1而Var(Yk)=Xk.第k个主成分的贡献率:务;1=1La前m个主成分累计贡献率:号一,它表明前m个主成分£,丫2,…,人综合提供X.,1=1x2,…,Xp中信息的能力。■主成分Yi与变量Xj的相关系数由于Y=P'X,故X=PY,从而xj=euYi十切岭+…+仑必,由此可得£与X」的相关系数为门_co”(耳,xp_&勺_Ta。Py
10、Xj~E(Y)护a;(Xj)■页苻~荷%4)标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。为了消除由丁量纲的不同可能带来的影响,常采用变量标准化的方法,即令*X.—〃・X.=十单,72,・・・“,(5)其中H=E(XJ,5i=VhNXi)・这时_(v*v*v*入—(Aj,A2?…,▲p丿的协方差矩阵便是X=(X
11、,X2,・・・,X』的相关矩阵p=(p」T其中(6)**C“(Xj,XJPij=E(XiX,=上丄・利用X的相关矩阵p
12、作主成分分析,有如下结论:设X(X;,X;,・・・,X;)7'为标准化的随机向量,其协方差矩阵(即X的相关矩阵)为p,贝IJX"的第i个主成分为Y:=(e;TX"=0;^=^~+0;2^=^^+・・・+吒―p.——-p,i=l,2,...,p・(7)丁51^22Qbpp并且(8)£畑(旺)=£九:=£”“(x:)=刃其中交单位特征向量。1=1Z=11=12;>2;>->2;>0为p的特征值,e;=(e;19e;29...,e;p)r为相应于特征值2;的正i个主成分的贡献率:竺;P■、上4刖m个主成分的累计贡献率:旦二Y;与X;的
13、相关系数为p、「;旳=氐;jo(2)样本主成分前面讨论的是总体主成分,但在实际问题中,一般S(或P)是未知的,需要通过样本来估计。设Xj=(工订9工i2,・",兀Q=1,2,.・・,,2・为取自X=(X「X2,・・・,XJ的一个容量为