欢迎来到天天文库
浏览记录
ID:6787624
大小:414.50 KB
页数:14页
时间:2018-01-25
《基于主成分分析的各省人均全年消费性支出》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、中北大学实验报告课程名:数据分析任课教师:专业:数学与应用数学学号:姓名:2014/2015学年第2学期中北大学理学院各省人均全年消费性支出摘要改革开放以来,随着经济的高速发展,我国经济取得了举世瞩目的较快增长,中国居民人均消费水平也有所提高。但是全国各地的人均消费存在较大差异,各地的人均消费水平直接反映了该地区的经济发展水平。针对这个问题我们找到一组我国其中的31个省、市和自治区的城镇居民家庭平均每人全年消费性支出的数据,并运用主成分分析法对这些数据进行了分析,以了解各地区的经济发展水平。关键词:人均消费,
2、经济发展,主成分分析,因子分析1引言全国各地人均消费水平的统计至少应该有两方面的意义。其一,是真实反映各地老百姓的生活水平;其二,了解各地区的经济发展水平,为相关部门制定政策作参考价值。主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。它是研究如何通过少数几个主分量(即原始变量线性组合)来解释多变量的方差——协方差结构。具体地说,是导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间不相关。主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更
3、深刻地解释事物内在的规律。2基于主成份分析的各地人均消费水平的情况主成分的数学模型一般为假设有n个样本,每个样本测得p项指标(p4、)式中,系数lij由下列原则来决定:(1)与(i≠j;i,j=1,2,…,m)相互无关;(2)是的一切线性组合中方差最大者;是与不相关的的所有线性组合中方差最大者;……;是与都不相关的的所有线性组合中方差最大者。这样决定的新变量指标分别称为原变量指标的第一,第二,…,第m主成分。其中,在总方差中占的比例最大,的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。从以上分析可以看出,找主成分就是确定原来变量xj(j=1,2,…,p)在诸主成5、分(i=1,2,…,m)上的载荷(i=1,2,…,m;j=1,2,…,p),从数学上容易知道,它们分别是的相关矩阵的m个较大的特征值所对应的特征向量。在主成分分析中希望用尽可能少的主成份包含原来尽可能多的信息,有以下几点原则:(1)主成分的累积贡献率:一般来说,提取主成份的累计贡献率达到80%~85%以上就比较满意了,可以此确定提取多少个主成分。(2)特征根:特征根在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。因此一般6、可以用特征根大于1作为纳入标准。(3)综合判断:大量的实践表明,如果根据累积贡献率确定主成分个数往往较多,而用特征根确定又往往偏低,许多时候应该将二者结合起来,以综合确定合适的数量。在实际操作中,主成分分析主要是按照如下的步骤来对实际问题进行分析的:第一步:对原p个指标n×p个原始变量标准化。目的是为了消除变量之间在数量级上或量纲上不用而产生的影响,以使每个变量的均值为0,方差为1。变量标准化的公式为:(3)其中和分别是第i个变量的平均值和标准差;第二步,根据标准化矩阵求出协方差矩阵;第三步,求出协方差矩阵的7、特征根第四步,确定主成分,结合专业知识给出各主成分所蕴含的信息,给予恰当的解释,并利用它们来判断样本的特性。主成分分析就是设法将原来众多的具有一定相关性的指标,重新组合成一组新相互无关的综合指标来代替原来指标(比如p个指标)。通常数学上的处理就是将原来p个指标做线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性自合即第一个综合指标为,自然希望尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用的方差来表达,即Var()8、越大,表示包含的信息越多。因此在所有的线性组合中所选取的应该是方差最大的,故称为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑即选第二个线性组合,为了有效的反映原来的信息,已有的信息就不需要再出现在中,用数学语言表达就是要求Cov(,)=0,称为第二主成分,以此类推可以造出第三、四…p个主成分。不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最
4、)式中,系数lij由下列原则来决定:(1)与(i≠j;i,j=1,2,…,m)相互无关;(2)是的一切线性组合中方差最大者;是与不相关的的所有线性组合中方差最大者;……;是与都不相关的的所有线性组合中方差最大者。这样决定的新变量指标分别称为原变量指标的第一,第二,…,第m主成分。其中,在总方差中占的比例最大,的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。从以上分析可以看出,找主成分就是确定原来变量xj(j=1,2,…,p)在诸主成
5、分(i=1,2,…,m)上的载荷(i=1,2,…,m;j=1,2,…,p),从数学上容易知道,它们分别是的相关矩阵的m个较大的特征值所对应的特征向量。在主成分分析中希望用尽可能少的主成份包含原来尽可能多的信息,有以下几点原则:(1)主成分的累积贡献率:一般来说,提取主成份的累计贡献率达到80%~85%以上就比较满意了,可以此确定提取多少个主成分。(2)特征根:特征根在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。因此一般
6、可以用特征根大于1作为纳入标准。(3)综合判断:大量的实践表明,如果根据累积贡献率确定主成分个数往往较多,而用特征根确定又往往偏低,许多时候应该将二者结合起来,以综合确定合适的数量。在实际操作中,主成分分析主要是按照如下的步骤来对实际问题进行分析的:第一步:对原p个指标n×p个原始变量标准化。目的是为了消除变量之间在数量级上或量纲上不用而产生的影响,以使每个变量的均值为0,方差为1。变量标准化的公式为:(3)其中和分别是第i个变量的平均值和标准差;第二步,根据标准化矩阵求出协方差矩阵;第三步,求出协方差矩阵的
7、特征根第四步,确定主成分,结合专业知识给出各主成分所蕴含的信息,给予恰当的解释,并利用它们来判断样本的特性。主成分分析就是设法将原来众多的具有一定相关性的指标,重新组合成一组新相互无关的综合指标来代替原来指标(比如p个指标)。通常数学上的处理就是将原来p个指标做线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?如果将选取的第一个线性自合即第一个综合指标为,自然希望尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用的方差来表达,即Var()
8、越大,表示包含的信息越多。因此在所有的线性组合中所选取的应该是方差最大的,故称为第一主成分。如果第一主成分不足以代表原来p个指标的信息,再考虑即选第二个线性组合,为了有效的反映原来的信息,已有的信息就不需要再出现在中,用数学语言表达就是要求Cov(,)=0,称为第二主成分,以此类推可以造出第三、四…p个主成分。不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最
此文档下载收益归作者所有