《主成分分析讲》PPT课件

《主成分分析讲》PPT课件

ID:39383538

大小:284.58 KB

页数:15页

时间:2019-07-02

《主成分分析讲》PPT课件_第1页
《主成分分析讲》PPT课件_第2页
《主成分分析讲》PPT课件_第3页
《主成分分析讲》PPT课件_第4页
《主成分分析讲》PPT课件_第5页
资源描述:

《《主成分分析讲》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、每个人都会遇到有很多变量的数据。比如:全国或各个地区的带有许多经济和社会变量的数据;各个学校的研究、教学等各种变量的数据等等。 这些数据的共同特点是变量很多,在如此多的变量之中,有很多是相关的。人们希望能够找出它们的少数“代表”来对它们进行描述。用主成分分析来解决这一类问题。它(principalcomponentanalysis)是因子分析(factoranalysis)的一个特例。主成分分析1.问题的提出主成分分析(principalcomponentanalysis,PCA)是一种最古老的多元统计分析技术。Pearcon[1]于1901年首次引入主成分分析的概念,Hotelli

2、ng[2]在30年代对主成分分析进行了发展。主成分分析是数理统计学中多元分析中的一个常用方法。所谓多元分析就是统计中讨论多元随机变量统计方法的总称。多元分析在地质、生物、医学、气象等方面资料分析以及计算机模式识别方面有广泛的应用,已成为数理统计学中的一个重要方面。主成分分析实质上是研究多指标怎样用较少的指标去近似描述它或者给多个指标进行重要程度的排队。2.应用主成分分析的中心目的是将数据降维,以排除众多信息共存中相互重叠的信息。它是将原变量进行转换,使少数几个新变量是原变量的线性组合,同时,这些变量要尽可能多地表征原变量的数据结构特征而不丢失信息。新变量互不相关,即正交。在文献中有许

3、多种叫法,如本征矢量投影(eigenvectorprojection),奇异值分解(singularvaluedecomposition),KarhunenLoéve展开(expandion)和K-L投影(K-Lprojection)等等,实际上均为主成分分析。3.1两维空间中的主成分分析在二维空间有一组测试点,如图1所示。这组数据在二维平面上的分布大致为一椭圆形。若拟将二维降为一维,实际上就是将二维空间上的点投影到一维空间中的一条线上。假若没有约束条件,其投影方向将有无穷个。如何得到最佳投影,在数学上,主成分分析为我们提供了一条途径。图16个测试点在二维平面上的分布图.图中为这些测

4、试点的重心主成分分析的基本思想是,在一维空间中的这条线必须包含原数据的最大方差。更准确些说,沿着这条线,使方差达到最大;而其他方向,使方差达到最小。从几何学观点看,这条线的方向应沿着椭圆的主轴。从代数学的观点看,这些点的分布可以表达成它们到其重心距离之平方加和.图16个测试点在二维平面上的分布图.图中为这些测试点的重心式中为数据点重心到点i距离的平方。现在引入一直线L,6个数据点在L上的投影分别为1’,2’,…,6’,那么可按下式分解:即其中,第一部分即为沿直线方向的方差,必须使之达到最大;第二部分即为沿其他方向的方差,必须使之达到最小。这些点的分布可以表达成它们到其重心距离之平方加

5、和3.2m维空间中的主成分分析在m维空间中,新变量,表达为:…………其系数矩阵为:新变量和老变量x的列矢量分别为:由此,转换可写为:=Vx同样,在m维主成分的系数也必须满足:(1)对于每两两主成分k和rvk1vr1+vk2vr2+…+vkmvrm=0此点意味着两个矢量正交。(2)对于每一个主成分r此点意味着每一矢量必须是单位长度。综合上述两点,我们有:式中为V的转置矩阵;I为单位阵类似于二维空间,在m维空间同样可将新变量ur的方差-协方差阵(以后简称为协方差阵)表达为原变量x的协方差阵的函数:式中Cu和Cx分别为新变量ur和原变量x的协方差阵。前边已经提及,我们称新变量为主

6、成分,它们是原变量的线性组和,且彼此正交。对于某一主成分,原变量的系数是相应本征矢量的坐标。某一变量的载荷(loading)定义为该变量在组合式中的系数乘以相应于该主成分本征值的平方根。但实际中,也常称系数本身为载荷。载荷越大,说明此变量与那个主成分越“相同”。因而,载荷可视为变量与主成分的相关性。取协方差阵Cx的第二个最大本征值所相应的本征矢量v2,它和1不相关,且可满足上述第二个条件.余类推,直到求得全部m个本征值及与之相应的本征矢量.在m维空间中,可得m个主成分。在实际应用中一般可取前边几个对偏差量贡献大的主成分,这样可使高维空间的数据降到低维如二维或三维空间,非常益于数据的

7、观察,同时损失的信息量还不会太大。取前P个主成分的数据为一般推荐比率%≥80%。另外,当数据的来源不一,不同变量间数值差异较大时应作标准化处理。即变量与均值之差被标准偏差来除。下边,我们给出一数字例子。8个试样的测定值(yi)及减去均值后相应的值(xi)示表5.2.表5.28个试样的测定值(yi)及减去均值后相应的值(xi)1=155.611=0.7000x1+0.7140x2+0.0134x32=24.152=0.1446x1-0.1600x2+

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。