主元分析PCA理论分析及应

主元分析PCA理论分析及应

ID:43762144

大小:613.31 KB

页数:38页

时间:2019-10-14

主元分析PCA理论分析及应_第1页
主元分析PCA理论分析及应_第2页
主元分析PCA理论分析及应_第3页
主元分析PCA理论分析及应_第4页
主元分析PCA理论分析及应_第5页
资源描述:

《主元分析PCA理论分析及应》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、主元分析(PCA)理论分析及应用什么是PCA?PCA是Principalcomponentanalysis的缩写,中文翻译为主元分析。它是-种刈数据进彳亍分析的技术,最重要的应用是对原有数据进行简化。止如它的名字:主元分析,这种方法可以有效的找出数据中最“主要”的元素和结构,去除噪音和兀余,将原有的复杂数据降维,揭示隐藏在复杂数据背后的简甲结构。它的优点是简单,而且无参数限制,对以方便的应用与各个场合。因此应用极其广泛,从神经科学到计算机图形学都有它的用武之地。被誉为应川线形代数最价值的结果之一。在以下的章节中,不仅有对PCA的比较直观的解释,同时也配有较为深入的分析。首先将

2、从-个简单的例子开始说明PCA应用的场合以及想法的山来,进行一个比较直观的解释;然后加入数学的严格推导,引入线形代数,进行问题的求解。随后将揭示PCA与SVD(SingularValueDecomposition)^间的联系以及如何将之应川于真实世界。最后将分析PCA理论模型的假设条件以及针对这些条件可能进行的改进。一个简单的模型在实验科学中常遇到的情况是,使用大量的变量代表可能变化的因素,例如光谱、电压、速度等等。但是rtr丁•实验环境和观测手段的限制,实验数据往往变得极只的复杂、混乱和冗余的。如何对数据进行分析,取得隐藏在数据背后的变量关系,是一个很闲难的问题。在神经科学

3、、气象学、海洋学等等学科实验中,假设的变量个数可能非常Z多,但是真正的影响因索以及它们之间的关系可能乂是非常之简单的。下面的模型取口一个物理学中的实验。它看上去比较简单,但足以说明问题。如图表1所示。这是一个理想弹簧运动规律的测定实验。假设球是连接在一个无质量无摩擦的弹簧Z上,从平衡位置沿x轴拉开一定的距离然片释放。图表1对丁-一个具有先验知识的实验者來说,这个实验是非常容易的。球的运动只是在X轴向上发牛,只需要记录卞兀轴向上的运动序列并加以分析即可。但是,在真实世界中,对于第i次实验的探索者来说(这也是实验科学中最常遇到的一种情况),是不可能进行这样的假设的。那么,一般來说

4、,必须记录下球的三维位置(兀,儿,%)。这一点可以通过在不同角度放置三个摄像机实现(如图所示),假设以200//Z的频率扪摄画血,就口J以得到球在空间中的运动序列。但是,山于实验的限制,这三台摄像机的角度可能比较任意,并不是正交的。事实上,在真实世界中也并没有所谓的{x,y,z}轴,每个摄像机记录下的都是一幅二维的图像,有其自己的空间坐标系,球的空间位置是由一组二维坐标记录的:[(心,儿),(心,丹),(乞,儿)1。经过实验,系统产牛了几分钟内球的位置序列。怎样从这些数据中得到球是沿着某个轴运动的规律呢?怎样将实验数据中的兀余变量剔除,化归到这个潜在的轴上呢?这是一个真实的实

5、验场景,数据的噪音是必须血对的因素。在这个实验中噪音可能來自空气、摩擦、摄像机的误差以及非理想化的弹赞等等。噪音使数据变得混乱,掩盖了变皐间的真实关系。如何去除噪音是实验者每天所要面对的巨大考验。上面提出的两个问题就是PCA方法的「I标。PCA主元分析方法是解决此类问题的一个有力的武器。卜文将结合以上的例子提出解决方案,逐步叙述PCA方法的思想和求解过程。线形代数:基变换从线形代数的角度来看,PCA的门标就是使川另•组棊去巫新描述得到的数据空间。而新的基要能尽呈揭示原有的数据间的关系。在这个例子中,沿着某兀轴上的运动是最巫耍的。这个维度即最匝耍的“主元”。PCA的目标就是找到

6、这样的“主元”,最大程度的去除兀余和噪咅的干扰。A.标准正交基为了引入推导,需要将上文的数据进行明确的定义。在上血描述的实验过程中,在每一个采样时间点上,每个摄像机记录了一组二维坐标(心,儿),综合三台摄像机数据,在每一个时间点上得到的位置数据对应于一个六维列向量。如果以200Wz的频率拍摄10分钟,将得到10x60x200=120000个这样的向量数据。抽象-点来说,每一个采样点数据文都是在加维向量空间(此例中m=6)内的一个向量,这里的加是牵涉的变量个数。rh线形代数我们知道,在加维向量空间中的每一个向址都是一组止交卑的线形组合。最普通的一组正交基是标准正交基,实验釆样的

7、结果通常可以看作是在标准正交基下表示的。举例来说,上例中每个摄像机记录的数据处标为(心,儿厂这样的基便是{(1,0),(0,1)}o那为什么不取V

8、V

9、-V

10、-V

11、{(2,22'2)}或是其他任意的基呢?原因是,这样的标准正交基反映了数据的采集方式。假设采集数据点是(2,2),—般并不会记录(2^2,0)(在{(〒,亍),(十,—二)}基下),因为一般的观测JJJJ者都是习惯丁取摄像机的屏幕朋标,即向上和向右的方向作为观测的基准。也就是说,标准止交基农现了数据观测的一般方式。在线形代数中,这组基表示为行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。