机器学习中的降维方法综述.doc

ID：59185282

大小：39.00 KB

页数：3页

时间：2020-09-10

资源描述：

《机器学习中的降维方法综述.doc》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、上海大学2014～2015学年春季学期研究生课程考试文献阅读报告课程名称：模式识别与机器学习课程编号：07SBE9004论文题目:机器学习中的数据降维方法研究生姓名:廖宇学号:评语:成绩:任课教师:评阅日期:机器学习中的数据降维方法1.引言随着科技的进步，尤其是数据采集和存储技术的飞速发展，不同行业和领域的数据如航天遥感数据，生物数据，网络数据以及金融市场交易数据等大量涌现，意味着大数据时代的来临。如何从复杂多样，变化迅速的大数据中有效地挖掘和提炼人类感兴趣的信息，对数据进行分析和建立模型，成为了一个热门话题

2、。机器学习是近20多年兴起的一种从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法，其大量的应用都与大数据高度耦合，是一种十分适用于大数据环境下的算法。从实践的意义上来说，机器学习是一种通过利用数据，训练出模型，然后使用模型预测的一种方法。在机器学习算法中，降维算法是重要的一部分。由于机器学习算法在处理数据或特征时，过高的维数空间会包含有冗余信息以及噪音信息，在实际应用例如图像识别中造成了误差，降低了准确率，因此需要通过降维算法来减少冗余信息所造成的误差,提高识别的精度。另外，通过降维算法还可以寻找

3、数据内部的本质结构特征，以及加速后续计算的速度，解决数据的稀疏问题等。2.数据降维方法2.1主成分分析（PCA）主成分分析（PCA）是最常用的线性降维方法，它的目标是通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性。通俗的理解，如果把所有的点都映射到一起，那么几乎所有的信息，如点和点之间的距离关系会丢失掉，而如果映射后方差尽可能的大，那么数据点则会分散开来，以此来保留更多的信息。可以证明，PCA是丢失原始数据信息

4、最少的一种线性降维方式。设n维向量w为目标子空间的一个坐标轴方向（称为映射向量），最大化数据映射后的方差，有：（1）其中m是数据实例的个数，是数据实例i的向量表达，是所有数据实例的平均向量。定义W为包含所有映射向量为列向量的矩阵，经过线性代数变换，可以得到如下优化目标函数：,（2）其中tr表示矩阵的迹，(3)A是数据协方差矩阵。容易得到最优的W是由数据协方差矩阵前k个最大的特征值对应的特征向量作为列向量构成的。这些特征向量形成一组正交基并且最好地保留了数据中的信息。PCA的输出就是Y=W’X，由X的原始维度降

5、低到了k维。PCA追求的是在降维之后能够最大化保持数据的内在信息，并通过衡量在投影方向上的数据方差的大小来衡量该方向的重要性。但是这样投影以后对数据的区分作用并不大，反而可能使得数据点揉杂在一起无法区分。这也是PCA存在的最大一个问题，这导致其在某些情况下的分类效果并不好。2.2线性判别分析（LDA）线性判别分析（LDA）是R.Fisher于1936年提出来的，也叫做Fisher’sLinearDiscriminant[[]FisherRA.Theuseofmultiplemeasurementsintaxo

6、nomicproblems[J].Annalsofeugenics,1936,7(2):179-188.]。LDA是一种有监督的线性降维算法。与PCA类似，LDA也要寻找一组投影向量，并将高维数据投影到低维空间以实现数据的降维。与PCA不同的是，LDA要使得原始数据投影到该低维空间后，不同类的数据尽可能地分开，同类的数据尽可能地紧凑，也就是在最小均方议一下选择能够最好分开各类数据的低维特征。由于数据降维的过程含有数据的判别信息，LDA所得到的低维特征更有利于分类。因此，LDA是目前在机器学习领域经典的一个方法

7、。将LDA与PCA相比较的话，两者的动机不同，因此对于相同的数据所寻找的投影向量也不尽相同，PCA在投影方向可以最大程度地保留原始数据信息，而LDA的投影方向更有利于区分两类数据，（加入LDA的计算过程）1.总结与展望1901年K.Pearson首次提出了主成分分析这个概念[[]]，1933年H.Hotelling完善了其数学基础，所以PCA又称为Hotelling变换。PCA的目的是将原始变量转换为一小部分反映事物主要性质的变量，也就是主成分。从而将数据从高维空间投影到低维空间，并且保证投影后的低维数据能够

8、在最小平方意义下最优地描述原有高维数据。PCA的各个主成分可通过求解基于数据协方差矩阵的特征向量得到。PCA的这些特点使得它成为分析多元数据的重要工具之一，并且在模式识别中得到广泛应用。例如，基于PCA的特征脸方法（Eigenfaces）方法已被证明在人脸识别中是相当成功的。众多研究者在此基础上进一步提出了许多扩展和变化方法，其中有代表性的有与和方法相结合得到的核主成分分析（KernelPrinci

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 / 3



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

机器学习中的降维方法综述.doc

机器学习中的降维方法综述.doc

相关文章

相关标签