资源描述:
《主成分分析在应用R软件和SPSS的比较》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、非参数统计期末论文题目:主成分分析在应用R软件和SPSS的对比班级:08统计(2)班成员:赵小燕(802092202)王慧(802092239)于洋(802092243)指导老师:王志刚主成分分析在应用R软件和SPSS的对比摘要:在研究复杂问题时,主成分分析方法可以抓住问题的主要矛盾,揭示其内部各因素之间的规律性,提高分析的效率。而R软件和SPSS软件是在主成分分析中最常用的两类软件。本文通过利用我国2010年各地区城镇居民家庭平均每人全年消费性支出分别应用R软件和SPSS软件进行分析,从而对这两种分析软件做出比较。关键词:R软件SPSS软件主成分分析多元统计1概述主
2、成分分析(principalcomponentsanalysis)是由霍特林(Hotelling)于1933年首次提出,该方法后来被广泛的应用于各种领域。在分析现实的问题时,往往会涉及到很多的指标,这些指标如果都要考虑的话,会很复杂。主成分分析方法通过降维的思想,在损失很少信息的情况下把多个指标综合成少数几个具有代表性的指标,通常把这些具有代表性的指标称为主成分。对实际的问题进行主成分分析时,往往是要借助计算机软件来完成的,比较常用的软件有SPSS和R软件。SPSS一直作为被大家十分喜欢的分析软件,但是用它是收费的,而相对之下,最近几年发展很快的R软件也是一款功能强大
3、的统计软件包,R软件是属于GNU系统的一个自由、免费、源代码开放的软件。随着我国对于软件知识产权法规不断完善的情况下,学习、利用和基于R软件平台进行二次开发对于我国的科研人员来说越来越重要,同时也具有重大的现实意义。2主成分分析基本原理设对于某个问题的研究涉及到p个指标,分别用X1,X2,X3…XP表示,这个指标构成的p维随机向量设为,对X进行线性变换,可以通过线性组合的方式形成新的综合变量,这里用C表示。新的综合变量和原来变量之间的关系可以用下面的公式表示:C1=u11X1+u12X2+…+u1pXPC2=u21X1+u22X2+…+u2pXP…CP=up1X1+u
4、p2X2+…+uppXP上式中的线性组合可以是任意的,由不同的线性变换得到的综合变量的统计特征也是不一样的。为了使综合变量可以较好的描述原变量的特征,应该要让Ct=ut'X的方差尽可能的大,并且Ci之间相互独立。为此,上式要满足以下的约束:1)ui12+ui22+…uip2=1(i=1,2,3,…,p);2)Ci和Cj互不相关((i≠j;i,j=1,2,3,…,p));3)C1是X1,X2,X3,…,Xp所有满足约束1)的线性组合中方差最大的,C2是线性组合中方差第二大的,其他的依次类推。以上三条约束确定X1,X2,X3,…,XP分别被称为原始变量的第一,第二,…,第
5、p个主成分。各主成分对变量的总方差贡献的大小不同,在实际的研究过程中,一般挑选前面几个方差最大的主成分(累积方差贡献率在80%到90%之间)来分析问题,从而达到降低问题复杂程度,抓住主要矛盾的目的。3主成分分析过程一般而言,用主成分方法对问题进行分析时,主要包含以下的基本过程:1)为了消除不同变量在数量级和量纲上的差异,将收集的原始数据进行标准化;2)求标准化后数据的相关矩阵;3)求相关矩阵的特征值和特征向量;4)根据特征值计算方差贡献率与累积方差贡献率,根据前几个主成分累积方差贡献率大于80%的原则,确定主成分为C1,C2,…,Cm;5)构建综合评价函数,其数学形式
6、为:C=λ1C1+λ2C2+…+λmCmλ1+λ2+…+λm6)根据综合评价函数计算总得分,然后排序并评价.4.应用SPSS和R软件进行主成分分析为了说明R软件和SPSS软件是如何应用于主成分分析中的,现以研究我国2010各地区城镇居民家庭平均每人全年的消费情况为例。首先收集能反映我国2008年各地区城镇居民家庭平均每人全年消费情况的指标和数据,这些指标分别从食品(X1)、衣着(X2)、居住(X3)、医疗(X4)、交通通信(X5)、教育(X6)、家政(X7)和耐用消费品(X8)这八个方面来描述消费情况。收集到的指标和数据如表1所示。为了方便,下面将我国2010各地区城
7、镇居民家庭平均每人全年的消费情况简称为消费情况。表1我国2010各地区城镇居民家庭平均每人全年的消费情况地区食品衣着居住医疗交通和通讯教育家庭服务耐用消费品北京5561.541571.741286.321563.12293.23809.2584.71548.55天津5005.091153.661528.281220.921567.87715.2445.5467.75河北3155.41137.221097.41808.881062.31386.628.84305.7山西2974.761137.711250.87769.79931.33570.7935.