资源描述:
《主成分分析法及其在SPSS中的操作.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。从数学角度来看,这是一种降维处理技术。思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。原理:假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵,x11x12x1px21x22x2pXxn
2、1xn2xnp记原变量指标为x1,x2,…,xp,设它们降维处理后的综合指标,即新变量为z1,z2,z3,…,zm(m≤p),则z1l11x1l12x2l1pxpz2l21x1l22x2l2pxp............zlxlxlxmm11m22mpp系数lij的确定原则:①zi与zj(i≠j;i,j=1,2,…,m)相互无关;②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;
3、zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第1,第2,…,第m主成分。从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的荷载lij(i=1,2,…,m;j=1,2,…,p)。从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。二、主成分分析的计算步骤1、计算相关系数矩阵r11r12r1p
4、r21r22r2pRrp1rp2rpprij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(xkixi)(xkjxj)k1rijnn22(xkixi)(xkjxj)k1k12、计算特征值与特征向量解特征方程IR0,常用雅可比法(Jacobi)求出特征值,并使其按大0小顺序排列12p;pe(i1,2,L,p)2分别求出对应于特征值i的特征向量i,要求=1ei,即eij1j1ee其
5、中ij表示向量i的第j个分量。3、计算主成分贡献率及累计贡献率i(i1,2,L,p)p贡献率:kk1ikk1累计贡献率:p(i1,2,L,p)kk1,,L,一般取累计贡献率达85%-95%的特征值,12m所对应的第1、第2、…、第m(m≤p)个主成分。4、计算主成分载荷lijp(zi,xj)ieij(i,j1,2,L,p)5、各主成分得分z11z12z1mzzzZ21222mzn1zn2znm三、主成分分析法在SPSS中的操作
6、1、指标数据选取、收集与录入(表1)2、Analyze→DataReduction→FactorAnalysis,弹出FactorAnalysis对话框:3、把指标数据选入Variables框,Descriptives:CorrelationMatrix框组中选中Coefficients,然后点击Continue,返回FactorAnalysis对话框,单击OK。注意:SPSS在调用FactorAnalyze过程进行分析时,SPSS会自动对原始数据进行标准化处理,所以在得到计算结果后的变量都是指经过标
7、准化处理后的变量,但SPSS并不直接给出标准化后的数据,如需要得到标准化数据,则需调用Descriptives过程进行计算。从表3可知GDP与工业增加值,第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、地方财政收入这几个指标存在着极其显著的关系,与海关出口总额存在着显著关系。可见许多变量之间直接的相关性比较强,证明他们存在信息上的重叠。主成分个数提取原则为主成分对应的特征值大于1的前m个主成分。特征值在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征值小于1,说明该主成分的
8、解释力度还不如直接引入一个原变量的平均解释力度大,因此一般可以用特征值大于1作为纳入标准。通过表4(方差分解主成分提取分析)可知,提取2个主成分,即m=2,从表5(初始因子载荷矩阵)可知GDP、工业增加值、第三产业增加值、固定资产投资、基本建设投资、社会消费品零售总额、海关出口总额、地方财政收入在第一主成分上有较高载荷,说明第一主成分基本反映了这些指标的信息;人均GDP和农业增加值指标在第二主成分上有较高载荷,说明第二主成分基本反映了人均GDP和农业增加