应用统计学:经济与管理中的数据分析11

应用统计学:经济与管理中的数据分析11

ID:34370130

大小:3.55 MB

页数:61页

时间:2019-03-05

应用统计学:经济与管理中的数据分析11_第1页
应用统计学:经济与管理中的数据分析11_第2页
应用统计学:经济与管理中的数据分析11_第3页
应用统计学:经济与管理中的数据分析11_第4页
应用统计学:经济与管理中的数据分析11_第5页
资源描述:

《应用统计学:经济与管理中的数据分析11》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第十一章.主成分分析PrincipalComponentAnalysis•工作目的:高维数据表的降维•基本原理:平移变换旋转变换•计算方法•分析技巧:分析精度、主成分命名等§11.1工作目标和基本思路•PCA的工作目的•主成分分析的基本原理•数据系统简化的思想方法一.PCA的工作目的在信息损失最小的前提下,对高维空间进行降维处理。数据类型:样本点变量(定量变量)在一个低维空间辩识系统,要比在高维空间容易得多。例1.Scott[英]1961年对157个英国城镇发展水平进行调查。PCA(精度95%)

2、原始变量57个5个新的综合变量。例2.Stone[美]1947年关于国民经济的研究。利用美国1929~1939年各年数据,得到17个反映国民收入与支出的变量。原变量17个PCA(精度97.4%)F(总收入I)1F(总收入变化率I)2F(经济发展或衰退趋势t)2主成分与实测变量的相关系数表FFFIIt123F11F012F0013I0.995-0.0410.0571I-0.0560.948-0.124-0.1021t-0.369-0.282-0.836-0.414-0.1121两

3、个特殊的情况1.将一个高维变量系统有效的降至2维转换为高维不可见空间直观平面图示(抽象思维)(形象思维)**增加决策知识,提高决策人员的洞察能力。2.将一个高维变量系统有效的降至1维有可能将高维指标系统转换为综合指数例1:Kendall[英]评估英国各地区农业生产水平。48个郡,10种农作物:小麦(x)、大麦(x)、燕麦12(x)、土豆(x)、菜豆(x)、马铃薯(x)、萝卜3456(x)、饲料甜菜(x)、临时牧场干草(x)、永久牧789场干草(x)。10Y=0.39x+0.37x+0

4、.39x+0.27x+0.22x112345+0.30x+0.32x+0.26x+0.24x+0.34x678910(精度:47.6%)二.主成分分析的基本原理问题:怎样能够对数据系统进行降维处理?x11x12x1py11y1mxxx21222p平移旋转y21y2mxxxyyn1n2npnpn1nmnm三.数据系统简化的思想方法问题:怎样能够对数据系统进行降维处理?yx2x33y2yy21y1gx02x0x11省却

5、数据变异不大方向的信息。E(y)0(数据重心与原点重合)hVar(y)Var(y)Var(y)12m§11.2主成分分析的计算方法•算法推导•PCA的计算步骤•主成分的统计特征一.算法推导记X是一个有n个样本点和p个变量的数据表轾eT犏1X=(xij)=犏犏ML=轾犏臌xx12,,,xpnp´犏Te犏臌nTn样本点x(xx,,)Rj1jnj变量Tpe(,xx,,x)Rii12iipi1,2,,,nj1,2,,p不妨设变量XX12,,,Xp都已经是标准化的,p求主成分YXku

6、kjj经过旋转变换得到的Y,是X的线性组合j1nn2112121DYkyyik0ikYkYYk,knii11nnn1uk1X1uk2X2ukpXp,uk1X1uk2X2ukpXpnXX,XXXX11121puk11X2X1XX2,2X2Xpuk2uk12,uk,,ukpnuXXXXXX,kpp12pppuVukkmmaxuVukkk1u1kuu0kls

7、.t.uVuuVuuVu1122mmk1,2,,,plk因此uu12,,up是矩阵V的特征向量,对应的特征值是12p二.PCA的计算步骤(一般情况下)(1)数据的标准化xxijjxijsj*为方便起见,仍记xijnpxijnpXnp。(2)计算标准化数据表X的协方差矩阵V。np(3)求V的前m个特征值λ≥λ≥…≥λ>0,12m以及对应的特征向量:u,u,…,u(主轴)12m它们是标准正交的:1jkujuk0jk(4)在u主轴

8、上,e的投影坐标是y(i)hihy(i)eu,i1,2,,nhih第h主成分为:yhyh(1),yh(2),,yh(n)e1uhe1uXuhhenuhenuh(1)px,,xu(j)x1phjj1uh(p)y是原变量x,…,x的线性组合,组合系数为u(1),…,u(p)h1Phh总结:PCA算法的输入与输出①……12mVar(y),

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。