SAS学习系列33.主成分分析报告

SAS学习系列33.主成分分析报告

ID:38402151

大小:199.62 KB

页数:15页

时间:2019-06-11

SAS学习系列33.主成分分析报告_第1页
SAS学习系列33.主成分分析报告_第2页
SAS学习系列33.主成分分析报告_第3页
SAS学习系列33.主成分分析报告_第4页
SAS学习系列33.主成分分析报告_第5页
资源描述:

《SAS学习系列33.主成分分析报告》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、实用标准文案33.主成分分析(一)原理一、基本思想主成份分析,是数学上对数据降维的一种方法,是将多个变量转化为少数综合变量(集中了原始变量的大部分信息)的一种多元统计方法。其主要目的是将变量减少,并使其改变为少数几个相互独立的线性组合形成的新变量(主成份,其方差最大),使得原始资料在这些成份上显示最大的个别差异来。在所有的线性组合中所选取的F1应该是方差最大的,称为第一主成分。如果第一主成分不足以代表原来所有指标的信息,再考虑选取第二个线性组合F2,称为第二主成分。为了有效地反映原有信息,F1已有的信息就不需要

2、再出现在F2中,用数学语言表达就是要求Cov(F1,F2)=0.依此类推可以构造出第三、第四、…、第p个主成分。主成份分析,可以用来综合变量之间的关系,也可用来减少回归分析或聚类分析中的变量数目。二、基本原理设有n个样品(多元观测值),每个样品观测p文档大全实用标准文案项指标(变量):X1,…,Xp,得到原始数据资料阵:其中,Xi=(x1i,x2i,…,xni)T,i=1,…,p.用数据矩阵X的p个列向量(即p个指标向量)X1,…,Xp作线性组合,得到综合指标向量:简写成:Fi=a1iX1+a2iX2+…+ap

3、iXpi=1,…,p限制系数ai=(a1i,a2i,…,api)T为单位向量,即且由下列原则决定:(1)Fi与Fj互不相关,即COV(Fi,Fj)=aiT∑ai=0,其中∑为X的协方差矩阵;(2)F1是X1,X2,…,Xp的所有满足上述要求的线性组合中方差最大的,即文档大全实用标准文案F2是与F1不相关的X1,…,Xp所有线性组合中方差最大的,…,Fp是与F1,…,Fp-1都不相关的X1,…,Xp所有线性组合中方差最大的。满足上述要求的综合指标向量F1,F2,…,Fp就是主成分,这p个主成分从原始指标所提供的信

4、息总量中所提取的信息量依次递减,每一个主成分所提取的信息量用方差来度量,主成分方差的贡献就等于原指标相关系数矩阵相应的特征值λi,每一个主成分的组合系数ai=(a1i,a2i,…,api)T就是特征值λi所对应的单位特征向量。方差的贡献率为αi越大,说明相应的主成分反映综合信息的能力越强。文档大全实用标准文案注:主成分分析是将原始变量组成的坐标系进行平移变换,使得新的坐标原点和数据群点的重心重合。新坐标第一轴与数据变化最大方向对应。F1,F2,…,Fp可以理解为p维空间中互相垂直的p个坐标轴。三、基本步骤1.计

5、算样品数据协方差矩阵Σ=(sij)p´p,其中2.求出Σ的特征值及相应的特征向量λ1>λ2>…>λp>0,及相应的正交化单位特征向量:文档大全实用标准文案则X的第i个主成分为Fi=aiTX,i=1,…,p.3.选择主成分在已确定的全部p个主成分中合理选择m个来实现最终的评价分析。一般用方差贡献率解释主成分Fi所反映的信息量的大小,m的确定是用累计贡献率达到足够大(一般在85%以上)为原则。4.计算n个样品在m个主成分得分5.数据的标准化实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响。消除

6、数据的量纲有很多方法,常用方法是将原始数据标准化文档大全实用标准文案其中,即把每列变为均值为0,方差为1.注:标准化后变量的协方差矩阵Σ=(sij)p´p,与原变量的相关系数矩阵R=(rij)p´p相同,故主成分分析可以从原始变量数据的相关系数矩阵,也可以从标准化数据的协方差矩阵出发做分析。(二)PROCPRINCOMP过程步基本语法:PROCPRINCOMPdata=数据集<可选项>;VAR变量变量;文档大全实用标准

7、文案说明:(1)可选项type=COV/CORR原始数据用CORR(相关系数矩阵,默认);标准化数据用COV(协方差矩阵);out=数据集——存储原始数据和各主成分得分(相应特征值);outstat=数据集——存储若干统计量;n=——设定主成分个数;std——OUT=数据集中,将主成分得分标准化为单位方差;noint——要求模型中不含截距。(2)VAR语句——指定做主成分分析的变量;(3)PARTIAL语句——指明对偏相关阵或偏协方差矩阵进行分析时,被偏出去的数值变量名。例1对全国30个省市自治区经济发展基本情

8、况的八项指标作因子分析。省份GDPx1居民消费水平x2固定资产投资x3职工平均工资x4货物周转量x5居民消费价格指数x6商品零售价格指数工业总产值x8文档大全实用标准文案x7北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.874

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。