欢迎来到天天文库
浏览记录
ID:47367907
大小:433.00 KB
页数:11页
时间:2019-07-27
《SAS讲义 第三十五课主成份分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、9d0d868b5abcff222665896fe1b16bb4.doc商务数据分析电子商务系列第三十五课主成份分析一、主成份的导出主成份分析(principalcomponentanalysis)是1901年提出,再由Hotelling(1933)加以发展的一种统计方法。其主要目的是在于将许多变量减少,并使其改变为少数几个相互独立的线性组合形成的变量(主成份),而在经由线性组合而得的成份之方差会变为最大,使得原始维资料在这些成份上显示最大的个别差异来。用一句话来说,主成份分析是将多个变量化为少数综合变量的一种多
2、元统计方法。设有组样品,每组样品有个变量,记组样品数据见表35.1。表35.1个变量的组样品数据样品号变量12…n………如果个变量是相互独立的,则可以将问题化为单变量逐个处理,这是比较简单的。但是对大量的实际问题中提出来的数据,各变量之间往往存在着不同程度的相关关系,这时要搞清这些数据之间的关系,就必须在高维空间中加以研究,这显然是比较麻烦的,为了克服这一困难,一个很自然的想法就是采取降维的方法,也就是利用全部个变量来重新构造个新的综合变量(),并使得这些较少的变量既能尽可能多地反映原来个变量的统计特性,并且它们
3、之间又是相互独立的。假定,,…,是一组随机变量,并且,协方差阵。考虑,,…,的一个线性组合(或称线性变换):(35.1)这里。对于综合变量,我们要选择这一组系数上海财经大学经济信息管理系IS/SHUFEPage11of119d0d868b5abcff222665896fe1b16bb4.doc商务数据分析电子商务系列使得的方差最大;由于,对任意给定的常数,,如果对不加以限制,上述问题就变得毫无意义。于是限制,求的最大值。根据限制性条件下的拉格朗日极值理论可以证明,在此情况下的的最大值等价于求(35.2)的值,就等
4、于矩阵的最大特征根,就是对应的特征向量。若记矩阵Σ*的p个特征值≥≥…≥>=…==0,且m个非零特征值所对应的特征向量分别为,,…,,则那么把矩阵的非0特征根≥≥…≥>0所对应的单位特征向量,,…,分别作为,,…,的系数向量,分别称为随机向量的第1主成分、第2主成分,…,第m主成分。当时(35.3)所以主成分之间是不相关的。而且可以看到,主成份分析主要就是由观察数据阵得到协方差的估计,从出发计算它的特征值和特征向量。维随机向量的主成份其实就是个变量的一些特殊的线性组合,在几何上这些线性组合正好把构成的原坐标系统经
5、过旋转后产生新坐标系统,这个新坐标系统的轴方向上具有最大的变异,同时提供了协方差阵的最简洁的表示(非对角线上为0)。例如,我们有一个=2维随机向量的=100个点构成一个椭圆形状,见图35-1所示。第一主成份则是这个椭圆的长轴方向,因为原坐标系的100点按长轴方向旋转后数据最离散,具有最大的方差,设定旋转方向的表示为单元圆上的一个单位方向,与长轴平行的单位方向具有,因此,不难求出第一主份的系数向量上海财经大学经济信息管理系IS/SHUFEPage11of119d0d868b5abcff222665896fe1b16
6、bb4.doc商务数据分析电子商务系列具体值。而椭圆的短轴与长轴是垂直的,是第二个主成份的方向,因为短轴是与长轴不相关方向中具有最大的方差,同样与短轴平行的单位方向具有,同求第一主成份的系数向量一样,我们也能容易求出具体值。图35-1二维随机向量的第一、第二主成份示意图用开头个主成份形成的维子空间,从几何上看,当采用从每个数据点到子空间的垂直距离的平方和作为度量时,这个维子空间对数据点给出了最好的拟合。例如,在图35-1所示中,所有数据点到第一主成份轴(椭圆的长轴)的垂直距离的平方和是最小的。要特别注意,它不同于
7、最小二乘回归的几何表示,回归是最小化所有数据点到拟合直线的垂直偏差的平方和。一、贡献率与累积贡献率由主成份的性质可知,主成份的方差,,…,与随机变量x1,x2,…,xp的方差S11,S22,…,Spp之间有关系(35.4)我们称(35.5)为第k个主成份的贡献率,它反映了第k个主成份提取全部信息的多少。又称上海财经大学经济信息管理系IS/SHUFEPage11of119d0d868b5abcff222665896fe1b16bb4.doc商务数据分析电子商务系列(35.6)为前k个主成份的累积贡献率,它反映了前k
8、个主成份共同提取全部信息的多少。我们进一步还可以考虑第k主成份与p个变量x1,x2,…,xp的相关系数,称其为因子负荷量,记为L(Zk,xi)(对相关阵的主成份或标准化后的数据),有(35.7)其中为第k个特征值所对应的特征向量的第i个分量。一、样本资料数据的主成分分析在实际分析中,我们一般得到如表(35.1)所示的数据资料,设,第i个样品的数据为,样本资料数据用矩阵表示
此文档下载收益归作者所有