资源描述:
《主成分分析(共享)》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、主成分分析类型:一种处理高维数据的方法。降维思想:在实际问题的研究中,往往会涉及众多有关的变量。但是,变量太多不但会增加计算的复杂性,而且也会给合理地分析问题和解释问题带来困难。一般说来,虽然每个变量都提供了一定的信息,但其重要性有所不同,而在很多情况下,变量间有一定的相关性,从而使得这些变量所提供的信息在一定程度上有所重叠。因而人们希望对这些变量加以“改造”,用为数极少的互补相关的新变量来反映原变量所提供的绝大部分信息,通过对新变量的分析达到解决问题的目的。•、总体主成分1.1定义设X],x2,xp为某实际问题所涉及的P个随机变量。记X=(X],X2,-,Xp)T,其协方差矩阵为X=
2、(臥“=E[(X-E(X))(X-E(X))T],它是一个P阶非负定矩阵。设Yx=l1xX=lnX^lnX^-^lipXp(1)Y2=llX=l2lXl+l22X2^-^l2pXpYp=l'X=lpiX^lp2X2+-^lppXp则有Var(Y.)=Var(l{X)=l:SZ.,i=l,2,・・・,p,Cov(Y:,Y)=Cov(I:X,1:X)=I;D匚,j=,2,・・・,p・JJJ第i个主成分:一般地,在约束条件Coviy^Y^=r^lk=0,A;=l,2,・・・,i一1.T,求h使Var(Yj达到最大,由此h所确定的YTx称为X],x2,Xp的第i个主成分。1.2总体主成分的计
3、算设E是X=(Xl,X29...9Xp)T的协方差矩阵,E的特征值及相应的正交单位化特征向量分别为2,>22>•-・n坷no及则X的第i个主成分为(3)丫:=®X=GjiX]+ci2X2+…+©pXp,i=1,2,・・・,p,此时Var(Yi)=e1[^ei=2,.,i=l,2,・・・,p,Cov(Yi9Yk)=e^ek=09i・1.3总体主成分的性质1.3.1主成分的协方差矩阵及总方差记丫=(乙,丫2,・・・七)『为主成分向量,则Y=PTX,其中P=(ei,e2,...,ep),且Cov(Y)=Cov(PTX)=PT^P=h=Diag(A{,A2,...,Ap由此得主成分的总方差为
4、ppP2^(^)=2a=tr(PT^P)=traPPT)=/r(S)=£Var(Xz),1=11=11=1即主成分分析是把P个原始变量XT,X2,・・・,Xp的总方差£畑(尤)Z=1分解成p个互不相关变量Y],丫2,…,Yp的方差之和,即==£畑(乙)1=1而Var(Yk)=2A.o第k个主成分的贡献率:务;;=1前m个主成分累计贡献率:它表明前m个主成分Y],—/=!丫„,综合提供X],X2,…,Xp中信息的能力。1.3.2主成分乙与变量务的相关系数由于Y=PTX,故X=PY,从而Xj=勺必+e2jY2+・・・+epjYp,Cov(Yi9Xj)=Aieij.由此可得£与务的相关系数为
5、c_Coy(E,Xj)_入Sj_扬“=阴(Y冲=阿応=荷旬(4)1.4标准化变量的主成分在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时总体方差则主要受方差较大的变量的控制。为了消除由于量纲的不同可能带来的影响,常采用变量标准化的方法,即令X:(5)其中jUi=E(XJ,s=Var(XJ・这时的协方差矩阵便是的相关矩阵P=Sj)p“,其中Pij=E(X;X=S(X,,Xj)利用X的相关矩阵P作主成分分析,有如下结论:设X、(X;,X;,・・・,X;r为标准化的随机向量,其协方差矩阵(即X的相关矩阵)为Q,则对的第i个主成分为并且£畑(*
6、)=£葢=^Var(X;)=p,(8)1=1<=11=1其中2;>2;>...>2;>0为Q的特征值,£:=d,・・・,</为相应于特征值石的正交单位特征向量。第i个主成分的贡献率:莖;P前m个主成分的累计贡献率:呈二・样本主成分前面讨论的是总体主成分,但在实际问题中,一般s(或Q)是未知的,需要通过样本来估计。设为取自的一个容量为n的简单随机样本,则样本协方差矩阵及样本相关矩阵分别其中分别以S和R作为丫和。的估计,然后按总体主成分分析的方法作样本主成分分析。三♦例题某市为了全面分析机械类个企业的经济效益,选择了8个不同的利润指标,14企业关于这8个指标的统计数据如下表所示,试进行主成
7、分分析。表114家企业的利润指标的统计数据变量企业序号净产值利润率(%)Xil固定资产利润率(%)Xi2总产值利润率(%)Xi2销售收入利润率(%)Xi3产品成本利润率(%)xi5物耗利润率(%)Xi6人均利润率七7(千元/人)流动资金利润率%)Xi8140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.