资源描述:
《第七章 主成分分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第七章主成分分析§7.1引言§7.2总体的主成分§7.3样本的主成分§7.1引言主成分分析(或称主分量分析,principalcomponentanalysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展了。主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。这些主成分能够反映原始变量的绝大部分信息,它们通常表示为原始变量的某种线性组合。主成分分析的一般目的是:(1)变量的降维;(2)主成分的解释。寻找主成分的正交旋转旋转公式:§7.2总体的主成分一
2、、主成分的定义及导出二、主成分的性质三、从相关阵出发求主成分一、主成分的定义及导出设为一个p维随机向量,E(x)=μ,V(x)=Σ。考虑如下的线性变换希望在约束条件下寻求向量a1,使得达到最大,y1就称为第一主成分。设λ1≥λ2≥⋯≥λp≥0为Σ的特征值,,i=1,2,⋯,p为相应的单位特征向量,且相互正交。则可求得第一主成分为它的方差具有最大值λ1。如果第一主成分所含信息不够多,还不足以代表原始的p个变量,则需考虑再使用一个综合变量,为使y2所含的信息与y1不重叠,应要求Cov(y1,y2)=0我们在此条件和约束条件下寻求向量a2,
3、使得达到最大,所求的称为第二主成分。求得的第二主成分为其方差为λ2。一般来说,x的第i主成分是指:在约束条件和Cov(yk,yi)=0,k=1,2,⋯,i−1下寻求ai,使得达到最大。第i主成分为主成分的几何意义在几何上,ti表明了第i主成分的方向,yi是x在ti上的投影值(其绝对值即为投影长度),λi是这些值的方差,它反映了在ti上投影点的分散程度。x投影到ti上的值其中?i是ti与x的夹角。主成分向量与原始向量之间的关系式主成分与原始变量之间的关系式矩阵y1y2⋯ypx1t11t12⋯t1px2t21t22⋯t2p⋮⋮⋮⋮xptp
4、1tp2⋯tpp正交变换的几何意义正交变换的几何意义是将Rp中由x1,x2,⋯,xp构成的原p维坐标轴作一正交旋转,一组正交单位向量t1,t2,⋯,tp表明了p个新坐标轴的方向,这些新坐标轴彼此仍保持正交(或说垂直)。二、主成分的性质1.主成分向量的协方差矩阵2.主成分的总方差3.原始变量xi与主成分yk之间的相关系数4.m个主成分对原始变量的贡献率5.原始变量对主成分的影响1.主成分向量的协方差矩阵V(y)=Λ其中Λ=diag(λ1,λ2,⋯,λp),即V(yi)=λi,i=1,2,⋯,p,且y1,y2,⋯,yp互不相关。2.主成分
5、的总方差由于所以或总方差中属于第i主成分yi(或被yi所解释)的比例为称为主成分yi的贡献率。第一主成分y1的贡献率最大,表明它解释原始变量x1,x2,⋯,xp的能力最强,而y2,y3,⋯,yp的解释能力依次递减。主成分分析的目的就是为了减少变量的个数,因而一般是不会使用所有p个主成分的,忽略一些带有较小方差的主成分将不会给总方差带来大的影响。前m个主成分的贡献率之和称为主成分y1,y2,⋯,ym的累计贡献率,它表明y1,y2,⋯,ym解释x1,x2,⋯,xp的能力。通常取(相对于p)较小的m,使得累计贡献达到一个较高的百分比(如80
6、%~90%)。此时,y1,y2,⋯,ym可用来代替x1,x2,⋯,xp,从而达到降维的目的,而信息的损失却不多。3.原始变量xi与主成分yk之间的相关系数x=Ty即xi=ti1y1+ti2y2+…+tipyp所以Cov(xi,yk)=Cov(tikyk,yk)=tikλk在实际应用中,通常我们只对xi(i=1,2,⋯,p)与yk(k=1,2,⋯,m)的相关系数感兴趣。4.m个主成分对原始变量的贡献率m个主成分y1,y2,⋯,ym从原始变量x1,x2,⋯,xp中提取的信息量,可度量为xi与y1,y2,⋯,ym的复相关系数的平方,称为m个
7、主成分y1,y2,⋯,ym对原始变量xi的贡献率。其值为当m=p时,例7.2.1设x=(x1,x2,x3)′的协方差矩阵为其特征值为λ1=5.83,λ2=2.00,λ3=0.17相应的特征向量为若只取一个主成分,则贡献率为5.83/(5.83+2.00+0.17)=0.72875=72.875%可见,y1对第三个变量的贡献率为零,这是因为x3与x1和x2都不相关,在y1中未包含一点有关x3的信息,这时仅取一个主成分就显得不够了,故应再取y2,此时累计贡献率为(5.83+2.00)/8=97.875%(y1,y2)对每个变量xi的贡献率
8、分别为,都比较高。表7.2.1y1及(y1,y2)对每个原始变量的贡献率iρ(y1,xi)ρ(y2,xi)10.9250.8550.0000.8552−0.9980.9960.0000.99630.0000.0001.0