欢迎来到天天文库
浏览记录
ID:43213231
大小:1.42 MB
页数:69页
时间:2019-10-03
《应用统计学 第七章 主成分分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第七章主成分分析PCA的基本思想一般模型与算法PCA的SPSS实现PCA的应用principlecomponentanalysisOriginsofPCAPearson(1901)首先引入Hotelling(1933)发展成熟Oneofthemostwidelyusedmultivariatetechniques.一、PCA的基本思想主成分分析:一种通过降维技术把多指标化为少数几个综合指标的多元统计分析方法。综合指标通常表示为原指标的线性组合,且为了使这些新指标所含的信息不重叠,要求各新指标之间互不相关WhatdoesPCAdo?
2、Originaldatamatrix,saynbypNewdatamatrix,saynbyq,withq
3、es”or“principalcomponents”Newvariablesarechosensoastocapturemostofthevariabilityintheoriginalvariables.Newvariablesareuncorrelated!综合了原指标的信息原指标相关性很强,新指标互不相关PCA的实质——简化数据用尽可能少的变量(主成分)反映原始数据中尽可能多的信息,以简化数据,突出主要矛盾。反映原始数据特征的指标:方差-离散度主成分:原始变量的最优加权线性组合最优加权:第一主成分:寻找原始数据的一个线性组合
4、,使之具有最大方差(数据离散度最大的方向)第二主成分:寻找原始数据的一个线性组合,使之具有次大方差,且与第一主成分无关……x1x2一个简单的两变量例售电量和利润:不同供电局在这两个指标上的离散度都很大。忽略哪个指标都会给评估带来较大偏误!1212正交旋转,样品间距离不变第一主成分:寻找原始数据的一个线性组合,使之具有最大方差(数据离散度最大的方向)第一主成分第二主成分第一主成分包含的信息量显然大于第二主成分,因而忽略第二主成分信息损失不大各国运动员100m和200m成绩,计算下列变量方差:X100m和X200m0.707*
5、X100m+0.707X200m0.167*X100m+0.986X200m二、PCA的模型与算法设:x为标准化变量,原始数据阵PCA目标:找到原始数据方差最大的线性组合设:线性组合系数为p×1=[1,2,…p]T即:要找一个使z=Xs=1x1+2x2+…+pxp具有最大方差对于标准化变量,样本方差阵=样本相关阵上式的解就是R的特征根1>2>…>p,其相应的特征向量1、2、…p就是权重向量,权重向量与Xs相乘得到的向量z1=Xs1、z2=Xs2、…zp=Xsp,就是Xs的主成分,且有:其中最大的
6、特征根1对应的主成分z1称为第一主成分,其方差最大,其次是第二主成分z2、第三主成分z3…。有p个变量,就有p个主成分。注意:R是对称阵,∴两不同特征根对应的特征向量相互正交。第i个主成分的方差就是相应的特征根。因为第一个特征根最大,所以第一主成分方差最大由于各主成分彼此不相关,因此,所有主成分之和的方差等于所有特征根之和,即:所有主成分方差之和解释了原始数据全部方差正交阵主成分得分矩阵特征根和特征向量的求法例:三标准化变量x1、x2、x3,n=300z1z2z3注意:这里主成成得分是非标准化的特征向量主成分得分Z=XsU数据主
7、成分分析:对原始数据阵进行正交旋转,使得第一主成分能保留原始数据的最大方差,第二主成分保留次大方差……,且主成分之间不相关,我们可以忽略方差贡献小的主成分从而达到降维的目的。:第i个主成分的方差贡献率第一主成分解释了最大部分的方差:前k个主成分的累计贡献率方差贡献率累计贡献率保留一个主成分可解释68.3%的方差保留两个主成分可解释92.3%的方差ConceptualModel主成分载荷阵标准化的主成分Z与原始数据阵Xs的相关系数矩阵,反映各主成分与原始变量x的相关程度,有助于解释各主成分的含义。变量共同度:载荷阵第i行前c个元素的
8、平方和,反映了前c个主成分对xi方差的解释程度从载荷阵可看出:z1与各x正相关,综合评价;z2与x2正相关,与x3负相关,反映样本在这两个指标方面的差距.72552+.66962=0.975:前两个主成分揭示了x2方差的97.5%三、PCA的SPS
此文档下载收益归作者所有