资源描述:
《几种降维方法pcaldalpp》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、几种降维方法PCA、LDA、LPPhttp://www.cnblogs.com/oimz/archive/2011/08/24/PCA.html初识PCA-主成分分析 PCA,PrincipalComponentAnalysis。是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。这是百度百科的一句话。个人对其的理解,这是一种减少干扰信息并用来区分数据的方法。 比如小A和小B是一对双胞胎,小A的额头上有颗痣,而小B没有。此时,我们分辨这两个人只需要根据谁的额头上有痣即可,而无需关注两个人在其他方面的微小差别。 人脸中长了痣,这是很形象
2、的,且根据经验,人们会把这颗痣当做区分这对双胞胎的要素。而在现实生活的数据处理中,如向量,向量之间的区分点不是那么明显,而且机器也不会根据经验来判断哪些数据可以当做区分与其他向量的要素。针对这一问题,PCA被提了出来,PCA算法是一种无监督学习(unsupervisedlearning),无须事先训练则可以找到区分于其他数据的“痣”。 关于PCA算法的步骤,网上到处都是而且很详细,而那些公式也大多是一样了。本文中便不再赘述,在这里只是做一下简单的介绍。首先我们有N个P维的向量要区分,X1,X2...Xn。P比较大,则处理所有向量的数据量较大,我们将其降至d维(d
3、X2...Xn],算出协方差矩阵C(P维方阵),求出C的特征值T和特征向量V。将特征值按从大到小排列取出前d个特征值,并将这些特征值对应的特征向量构成一个投影矩阵L。使用S*L则得到降维后的提出主成分的矩阵。下面附上自己做的小实验。 X1=[1,2,4] X2=[10,4,5] X3=[100,8,4] 根据经验上述3维向量中,第一维和第二维是区分的要素且第一维比第二维区分度更大。于是我们构造矩阵S, S=[1,2,4;10,4,5;100,8,5] 计算出S的协方差矩阵C=COV(S), C= 1.0e+003* 2.9970 0.1620 0.0180 0.1620
4、 0.0093 0.0013 0.0180 0.0013 0.0003 求出协方差矩阵C的特征值T和特征向量V,[T,V]=eig(C) T= -0.0235 0.0489 -0.9985 0.5299 -0.8464 -0.0540 -0.8478 -0.5303 -0.0060 V= 1.0e+003* -0.0000 0 0 0 0.0008 0 0 0 3.0059 取出第3个和第2个特征值以及相对应的特征向量构成投影矩阵L(实际上可以只取第三维)
5、 L= -0.9985 0.0489 -0.0540 -0.8464 -0.0060 -0.5303 使用S*L则得到新的降维后的矩阵N N= -1.1305 -3.7651 -10.2310 -5.5481 -100.3120 -4.5327 则提取出了可以用于区分的二维。http://blog.csdn.net/warmyellow/article/details/5454943线性判别分析(LinearDiscriminantAnalysis,LDA)算法分析LDA算法入门 一.LDA算法概述:线性判别式分析(LinearDiscriminantAnalysi
6、s,LDA),也叫做Fisher线性判别(FisherLinearDiscriminant,FLD),是模式识别的经典算法,它是在1996年由Belhumeur引入模式识别和人工智能领域的。性鉴别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。就是说,它能够保证投影后模式样本在新的空间中有最小的类内距离和最大的类间距离,即模式在该空间中
7、有最佳的可分离性。二.LDA假设以及符号说明:假设对于一个空间有m个样本分别为x1,x2,……xm即每个x是一个n行的矩阵,其中表示属于i类的样本个数,假设有一个有c个类,则。…………………………………………………………………………类间离散度矩阵…………………………………………………………………………类内离散度矩阵…………………………………………………………………………属于i类的样本个数……………