资源描述:
《关于广州市居民消费结构的主成分分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、广州市居民消费结构的主成分分析摘要:简要介绍了主成分分析的基本理论和基本方法,初步探讨了主成分分析在实际应用中需要注意的几个问题,并结合对广州市居民消费结构的综合评价,给予主成分一个具有实际意义的诠释。关键词:主成分分析;多指标综合评价;居民消费结构引言影响事物变动的因素很多,有些是主要的,有些是次要的。如果全都分析将会耗时又耗力。我们必须对各因素的相互关系进行综合的统计分析,借以观察各因素变动对事物变动程度和方向的影响,根据各因素的不同作用清楚地观察事物发展规律并对事物发展作出综合评价。综合评价方法很多,如回归分析、方差分析、聚类分析、主成分分析等。由于各因素间存在一定的
2、相互关系,我们可以对众多因素进行简化,简化后的因素互不相关且能综合反映原始因素的信息。主成分分析正是处理这类问题的有效方法之一。本文借助统计软件SPSS和EXCEL来综合分析和研究多个指标。就主成分分析的基本理论及其在实际应用中应注意的几个问题作一些初步探讨,并结合与一个具体问题的商榷给予主成分具有实际意义的解释。一、主成分分析的基本原理(一)主成分分析简述主成分分析是一种降维的统计方法,它可以用尽量少的综合指标代替众多原始数据,并尽可能多地反映原始数据的信息。通过对样本相关阵的内部结构关系的研究,找出影响事物变动的几个综合指标,使综合指标为原变量的线性组合。综合指标彼此之
3、间互不相关,保留了原变量的主要信息,又比原变量具有更优越的性质,使我们在综合评价时更易抓住主要矛盾。(二)主成分分析的统计描述设有p个指标x1,x2,,,xp,反映了客观对象的各个特性。把每个对象观察到的p个指标值作为一个样本值,它是一个p维向量。若观察n个对象,就可得n个p维向量,构成一个n*p矩阵X,该矩阵的每一行就是一个样本的观察值。统计问题是:已知数据矩阵X,能否找到一个线性函数,它能最好地反映p个指标x1,x2、、、xp的变化状况?也即能否把p个变量在n个样本上的差异用它们的一个线性函数的差异来综合表示?如果行,这个线性函数就是一个代表性很好的指标,它称为这p个变
4、量的主成分。(三)进行主成分分析的具体方法1、确定指标体系。在各项具体指标的设置和选择过程中,要注意指标的全面性、代表性、可得性、简洁性和整合性。2、建立原始信息矩阵Xn×p。即上述统计问题中的矩阵X。3、对矩阵X中的数据实行标准化处理,使其具有可比性。(i=1,2,,,n;j=1,2,,,p),其中,得标准化矩阵Z4、求标准化矩阵Z的相关矩阵R。利用标准化后的数据计算P个指标间的相关系数i,j=1,2,,,p得相关矩阵R:5、求相关矩阵R的特征值和特征向量。求解R的p个特征根。对每个特征根,j=1,2,,,p解方程组Rl=l算得特征向量lj6、给出主成分yi,i=1,2,
5、,,p的表达式。有,i=1,2,,,p,且y1,y2,,,yp互不相关,依次称为第一、第二、,、第p主成分,yi的方差为,i=1,2,,,p。7、确定主成分的个数k。按照≥85%,求出使累计贡献率大于等于85%的k值,其中称为前k个y1,y2,,,yk的累计贡献率。由于主成分分析的核心思想是降维,故应使值尽可能小以达到明显的降维效果。8、计算综合评价指标pc。记X=(x1,x2,,,xp)为指标向量,则得前k个主成分为:,,….综合评价指标其实就是前K个主成分的线性加权值,按yj的方差占总体方差的比例求得权系数(贡献率),(j=1,2,,,k),从而求得综合评价指标9、计算
6、评价分值并排序。标准化矩阵Z=(Z1,Z2,,,Zn)T对应的主成分向量为Uj=Zlj,j=1,2,,,k。它的第i个分量uij是向量Zi(i=1,2,,,n)在lj上的投影。从而评价分值为S=(S1,S2,,,Sn)T=,根据Si(i=1,2,,,n)值的大小可对样本进行评价排序。二、应用主成分分析需要注意的问题(一)主成分分析的适用范围由数理统计中的强大数定律知,随着被评价对象的增加,评价指标的平均水平和离散程度趋于稳定,因而协方差矩阵也趋于稳定,增加了评价结果的准确性,因此主成分分析适宜于大样本的综合评价。又由于同一被评价对象在不同样本集合体中的均值和离散程度是变化的
7、,因而协方差矩阵也是变化的,由此计算的主成分与方差贡献率是不同的,所以综合评价的结果是变化的(二)改进主成分分析的“线性化”传统主成分分析存在两个不足:一是综合评价的实际结果与评价指标的相关程度高低成正比,评价指标间相关程度越高,主成分分析的结果越好,当指标间相关性小时,每一个主成分承载的信息量就少,为使累计方差贡献率达到一定水平,可能需选取较多的主成分,此时主成分分析的降维作用就不明显。二是主成分分析只是一种“线性”降维技术,只能处理线性问题:一方面主成分是原始指标的线性组合,另一方面对原始数据进行标准化处理,使