资源描述:
《数据降维方法分析与研究_吴晓婷》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第26卷第8期计算机应用研究Vo.l26No.82009年8月ApplicationResearchofComputersAug.2009*数据降维方法分析与研究吴晓婷,闫德勤(辽宁师范大学计算机与信息技术学院,辽宁大连116081)摘要:全面总结现有的数据降维方法,对具有代表性的降维方法进行了系统分类,详细地阐述了典型的降维方法,并从算法的时间复杂度和优缺点两方面对这些算法进行了深入的分析和比较。最后提出了数据降维中仍待解决的问题。关键词:数据降维;主成分分析;局部线性嵌入;等度规映射;计算复杂度中图分
2、类号:TP301文献标志码:A文章编号:1001-3695(2009)08-2832-04do:i10.3969/.jjssn.1001-3695.2009.08.008AnalysisandresearchonmethodofdatadimensionalityreductionWUXiao-ting,YANDe-qin(SchoolofComputer&InformationTechnology,LiaoningNormalUniversity,DalianLiaoning116081,China)A
3、bstract:Thispapergaveacomprehensivesummarizationofexistingdmiensionalityreductionmethods,aswellasmadeaclassificationtotherepresentativemethodssystematicallyanddescribedsometypicalmethodsindetail.Furthermore,itdeeplyanalyzedandcomparedthesemethodsbytheirco
4、mputationalcomplexityandtheiradvantagesanddisadvantages.Finally,itproposedthecrucialproblemswhichneededtoberesolvedinfutureworkindatadmiensionalityreduction.Keywords:datadmiensionalityreduction;principalcomponentanalysis(PCA);locallylinearembedding(LLE);i
5、sometricmapping;computationalcomplexity近年来,数据降维在许多领域起着越来越重要的作用。通结构的研究,将多个变量转换为少数几个综合变量即主成分,过数据降维可以减轻维数灾难和高维空间中其他不相关属性,从而达到降维目的的一种线性降维方法。这些主成分能够反从而促进高维数据的分类、可视化及压缩。所谓数据降维是指映原始变量的绝大部分信息,它们通常表示为原始变量的线性通过线性或非线性映射将样本从高维空间映射到低维空间,从组合。而获得高维数据的一个有意义的低维表示的过程。数据降维P
6、CA线性方法NLDA的数学描述如下:a)X={xi}i=1是D维空间中的一个样本集,基于重建权值:LLENY={yi}i=1是d(d<7、离:MDS基于距离保持基于测地线距离:Isomap年来提出的基于流形学习的算法,如Isomap、局部线性嵌入基于分散距离:difusionmaps(LLE)、拉普拉斯特征映射(LaplacianEigenmaps)等。对现有保留全局性质基于核:核PCA的降维方法,可以从不同角度进行分类。从待处理的数据的性基于神经网络:多层自动编码质角度考虑可分为线性和非线性的;从算法执行的过程可分为图1现有降维方法分类T基于特征值求解的方法和迭代方法;从几何结构的保留角度考设X=(X1,X2,,,Xn)是一个n维随机变量
8、,C=1/(n-n虑可分为全局方法和局部方法。本文依据降维方法间的主要T1)E(Xi-X))(Xi-X)为样本协方差矩阵。假设存在如下i=1区别,将现有的降维方法进行了系统的分类,如图1所示,并对线性变换:几种典型的线性和非线性降维方法进行了详细的阐述,最后对TY1=a11X1+a21X2+,+aN1XN=a1X这些降维方法进行了系统的分析比较。Y=aX+aX+,+aX=aTX2121222N2N2(1)1典型的降维方法sY=