资源描述:
《多元统计分析 第7章(主成分分析)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第七章主分量(主成分)分析主分量分析的思想:一种降维的思想.它是将多个指标化为少数几个综合指标的一种统计方法.原理:随机变量的方差越大含原随机向量的信息越多.1用主成分分析方法的原因:∑变量个数太多,反映的信息有重叠;∑变量个数太多,在高维空间研究样本的分布等太复杂;∑变量个数太多,不易画散点图等;∑在回归中,自变量个数太多可能存在共线性关系,使参数估计不稳定.2§7.1总体的主分量§7.2样本的主分量§7.3PRINCOMP(主分量)过程§7.4主分量分析的应用案例3多个指标的统计问题主成分分析(变成少数几个指标)回归分析聚类分析判
2、别分析4§7.1总体的主分量一、主分量的定义二、主分量的求法三、主分量的性质四、标准化变量的主分量及性质5设为x=()xx"x′p维随机变量,12pEx()==μ,Dx()Σ.考虑x的线性变换:⎧za==+++′xaxax"ax11111212pp1⎪⎪za==+++′xaxax"ax22121222pp2⎨⎪"""""""""""""⎪za==+++′xaxax"ax⎩pp11p22pppp6假设A可逆⎛z1⎞⎛x1⎞⎛⎜x1⎞⎟⎛⎜z1⎞⎟⎜⎟⎜⎟⎜z2⎟⎜x2⎟⎜x2⎟−1⎜z2⎟⎜⎟=A′⎜⎟⎜⎟=()A′⎜⎟####⎜⎟⎜⎟
3、⎜⎟⎜⎟⎜z⎟⎜x⎟⎜⎝xp⎟⎠⎜⎝zp⎟⎠⎝p⎠⎝p⎠其中A=(a1a2"ap)7⎧⎪Varz()=Σa′aiii(,ij=1,2,,)"p⎨⎪Covzz(,)=Σa′a⎩ijij若Aaaa=()12"p是一个可逆矩阵,则可以用代z12,,,zz"p替,x12,,,xx"p即x12,,,xx"p和z12,,,zz"p两组变量的作用相同.x12,,,xx"pzz12,,,"zp8zx,x,",x112p希望zx,x,",x112pVar(z)大192但由于Var(c⋅a′x)=c⋅a′Σa,当c→∞时,111Var(c⋅a′x)→∞.
4、1所以,我们必须对a加上限制a′a=1.即:111在a′a=1限制下,使Var(z)=a′Σa达到极11111大,这时我们称z=a′x为x的第一主分量.1110若一个主分量z不足以代表原p个变量的1绝大部分信息,考虑用z进行补充,为了最2有效地代表原p个变量的信息,z已包含的信1息就不希望出现在z中,用统计语言来讲,就2是Cov(z,z)=0,于是求z就是在约束a′a=1,12222和Cov(z,z)=a′Σa=0下求a,使Var(z)=121222a′Σa达到极大,这时我们称z=a′x为x的第二2222主分量.11一、主分量的定义设
5、x=(xx"x)′为p维随机向量.12p称z=a′x为x的第i主分量(i=1,2,",p),如果:ii(1)a′a=1(i=1,2,",p)ii(2)当i>1时,a′Σa=0(j=1,2,",i−1)ij(3)Var(z)=maxVar(α′x)iα′α=1,α′Σaj=0(j=1,2,",i−1)12主分量的两点要求:(1)反映原变量的信息尽量多——方差大(2)主分量之间信息不重复——协方差为013二、主分量的求法定理设x=(xx"x)′为p维随机向量.12p且D(x)=Σ,Σ的特征值为λ≥λ≥"≥λ,12pa,a,",a为相应的单
6、位正交特征向量,则x的12p第i主分量为z=a′x(i=1,2,",p).ii14证明在a′a=1下,使Var(z)=a′Σa11111达到极大,等价于求a使1Var(z)=a′Σa=maxα′Σα=maxVar(α′x)111α'α=1α'α=1可以证明:maxα′Σα=λ1α'α=1当α=Σa时,上式达到最大值其中是的.λ11最大特征值,为相应的单位特征向量a.115事实上,设Σ的特征值为λ≥λ≥"12≥λ≥0,a,a,",a为相应的单位正交p12p特征向量,所以α可由a,a,",a线性表12p示.设α=ca+ca+"+ca,由于
7、1122pp222α′α=1,则有c+c+"c=1.12p222α′Σα=λc+λc+"+λc1122pp222≤λc+λc+"+λc=λ11121p1且a′Σa=λ.11116在a′a=1和Cov(z,z)=a′Σa=0下,221212求a使2Var(z)=a′Σa=maxα′Σα222a1′Σα=0,α'α=1可以证明:maxα′Σα=λ2a1′Σα=0,α′α=1当α=a时,上式达到最大值.217事实上,Cov(a′x,α′x)=α′Σa=λα′a=0,1111若λ≠0,推出α′a=0,所以α一定可由a,",a112p线性表示,
8、设α=ca+"+ca,由于α′α=1,22pp22则有c+"+c=1.2p22α′Σα=λc+"+λc22pp22≤λc+"+λc=λ222p2且a′Σa=λ.22218三、主分量的性质记Σ=(σ),Λ=diag(λ,λ