欢迎来到天天文库
浏览记录
ID:36888469
大小:495.50 KB
页数:68页
时间:2019-05-10
《数学建模因子分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第十四讲因子分析第一部分主成分分析第二部分因子分析第一部分主成分分析1、主成分分析的基本原理2、主成分分析的数学模型3、主成分分析的步骤主成分分析的基本原理主成分的概念由KarlPearson在1901年提出的。他是考察多个变量间相关性一种多元统计方法研究如何通过少数几个主成分(principalcomponent)来解释多个变量间的内部结构。即从原始变量中导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间互不相关。主成分分析的目的:数据的压缩;数据的解释常被用来寻找判断事物或现象的综合指标,并对综合指标所包含的信
2、息进行适当的解释什么是主成分分析?(principalcomponentanalysis)对这两个相关变量所携带的信息(在统计上信息往往是指数据的变异)进行浓缩处理假定只有两个变量x1和x2,从散点图可见两个变量存在相关关系,这意味着两个变量提供的信息有重叠主成分分析的基本思想(以两个变量为例)如果把两个变量用一个变量来表示,同时这一个新的变量又尽可能包含原来的两个变量的信息,这就是降维的过程椭圆中有一个长轴和一个短轴,称为主轴。在长轴方向,数据的变化明显较大,而短轴方向变化则较小如果沿着长轴方向设定一个新的坐标系,则新产生的两
3、个变量和原始变量间存在一定的数学换算关系,同时这两个新变量之间彼此不相关,而且长轴变量携带了大部分的数据变化信息,主成分分析的基本思想(以两个变量为例)短轴变量只携带了一小部分变化的信息(变异)此时,只需要用长轴方向的变量就可以代表原来两个变量的信息。这样也就把原来的两个变量降维成了一个变量。长短轴相差越大,降维也就越合理多维变量的情形类似,只不过是一个高维椭球,无法直观地观察每个变量都有一个坐标轴,所以有几个变量就有几主轴。首先把椭球的各个主轴都找出来,再用代表大多数数据信息的最长的几个轴作为新变量,这样,降维过程也就完成了主
4、成分分析的基本思想(以两个变量为例)找出的这些新变量是原来变量的线性组合,叫做主成分主成分分析的数学模型数学上的处理是将原始的p个变量作线性组合,作为新的变量设p个原始变量为,新的变量(即主成分)为,主成分和原始变量之间的关系表示为主成分分析的数学模型主成分分析的数学模型aij为第i个主成分yi和原来的第j个变量xj之间的线性相关系数,称为载荷(loading)。比如,a11表示第1主成分和原来的第1个变量之间的相关系数,a21表示第2主成分和原来的第1个变量之间的相关系数pxxx,,,…21pyyy,,,...21选择几个主成
5、分?选择标准是什么?被选的主成分所代表的主轴的长度之和占了主轴总程度之和的大部分在统计上,主成分所代表的原始变量的信息用其方差来表示。因此,所选择的第一个主成分是所有主成分中的方差最大者,即Var(yi)最大如果第一个主成分不足以代表原来的个变量,在考虑选择第二个主成分,依次类推这些主成分互不相关,且方差递减主成分的选择究竟选择几个主成分才合适呢?一般要求所选主成分的方差总和占全部方差的80%以上就可以了。当然,这只是一个大体标准,具体选择几个要看实际情况如果原来的变量之间的相关程度高,降维的效果就会好一些,所选的主成分就会少一
6、些,如果原来的变量之间本身就不怎么相关,降维的效果自然就不好不相关的变量就只能自己代表自己了主成分的选择主成分分析的步骤对原来的p个指标进行标准化,以消除变量在水平和量纲上的影响根据标准化后的数据矩阵求出相关系数矩阵求出协方差矩阵的特征根和特征向量确定主成分,并对各主成分所包含的信息给予适当的解释主成分分析的步骤【例】根据我国31个省市自治区2006年的6项主要经济指标数据,进行主成分分析,找出主成分并进行适当的解释主成分分析(实例分析)用SPSS进行主成分分析第1步选择【Analyze】下拉菜单,并选择【DataReducti
7、on-Factor】,进入主对话框第2步在主对话框中将所有原始变量选入【Variables】第3步点击【Descriptives】,在【correlationMatrix】下选择【Coefficirnts】,点击【Continue】回到主对话框第4步点击【Extraction】,在【Display】下选择【ScreePlot】,点击【Continue】回到主对话框第5步点击【Rotation】,在【Display】下选择【LoadingPlot】,点击【Continue】回到主对话框点击【OK】单变量描述统计分析。输出单变量的基
8、本统计量,包括每个变量的均值、标准差及其有效例数初始解。默认选项。输出因子分析的初始解,显示初始公共因子方差、特征值及其解释变量的百分比。1、相关系数矩阵;2、显著性水平;3、相关系数矩阵的行列值;4、相关系数矩阵的逆矩阵;5、再生相关系数矩阵。输出因子分析的估
此文档下载收益归作者所有