数据分布保持的嵌入及其在特征选择中的应用

数据分布保持的嵌入及其在特征选择中的应用

ID:35082756

大小:3.09 MB

页数:63页

时间:2019-03-17

数据分布保持的嵌入及其在特征选择中的应用_第1页
数据分布保持的嵌入及其在特征选择中的应用_第2页
数据分布保持的嵌入及其在特征选择中的应用_第3页
数据分布保持的嵌入及其在特征选择中的应用_第4页
数据分布保持的嵌入及其在特征选择中的应用_第5页
资源描述:

《数据分布保持的嵌入及其在特征选择中的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据分布保持的嵌入及其在特征选择中的应用重庆大学硕士学位论文(学术学位)学生姓名:任鹏飞指导教师:张太平副教授专业:计算机软件与理论学科门类:工学重庆大学计算机学院二O一六年四月DistributionPreservingEmbeddingandItsApplicationinFeatureSelectionAThesisSubmittedtoChongqingUniversityinPartialFulfillmentoftheRequirementfortheMaster’sDegreeofEngineeringByRenPengfeiSuper

2、visedbyProf.ZhangTaipingSpecialty:ComputerSoftwareandTheoryCollegeofComputerScienceofChongqingUniversity,Chongqing,ChinaApril,2016重庆大学硕士学位论文中文摘要摘要机器学习、信号、图像处理、计算视觉中会出现高维数据,高维数据不仅增加算法的计算时间和内存需求,同时也因“维数灾难”降低算法的有效性,高维数据中常会潜藏着一个低维结构。维数约简方法通过找到原始高维数据的低维表示来降低数据的维数,以此来降低计算时间消耗和增加算法的有效

3、性。维数约简的方式有两种,一是特征变换,即将高维特征变换到新的特征空间,并试图保持数据的某种特性,如数据间的欧氏距离,而这种方式会改变原始数据特征的物理含义。另外一种是特征选择,其选出最能描述数据的一个子集,因此不会改变原始数据特征的物理含义,因此在某些应用中,为了保持原始特征的含义,必须使用特征选择的维数约简的方法,如基因选择。当类标签是可利用的时候,类标签可以用来指导我们设计不同的标准用于评估特征的重要性。然而当类标签不可利用时,非监督特征选择就变成非常困难。为了解决这些挑战,大多数的无监督维数约简算法试图保持数据的某些特性保持不变。本文针对高维

4、数据维数约简不同应用,提出了如下两种维数约简方法:首先,我们提出一种保持输入数据分布的数据嵌入方法,叫做DistributionPreservingEmbedding(DPE)。该方法试图去保持原始输入数据的分布信息,即最小化原始数据和低维数据的密度间的差异。我们给出理论证明,该算法的逼近误差为4(?+4)1?(()),这里?代表样本数目,?(?>0)是低维空间的维数,可以得出?越?小,则逼近误差则越小。因此DPE比较适用于数据可视化。此外,DPE很自然适合增量学习,因此可以很容易适用于新样本的嵌入。数据的分布能很好地刻画数据的内在模式,我们提出的D

5、PE能有效的保留数据的原始分布特性,因此,其能够有效地发现数据的内在模式(结构),而传统的方法没有明确考虑数据本身的分布。最后,我们在不同的数据集上进行大量实验,结果显示了DPE的有效性和优越性。然后,我们提出了一种保持数据分布特性的无监督特征选择方法DistributionPreservingFeatureSelection(DPFS)。该方法试图找到能保持数据分布的最显著的特征,通过给每个特征一个权重,然后最小化原始数据特征和加权特征间的密度估计值的差异。我们给出理论分析显示DPFS可以看成是一种核方法,因此其拥有核函数方法的优点,此外,传统的特

6、征选择方法往往涉及一个详尽的组合优化,我们所提出的方法将特征选择问题作为一个数值优化问题,与组合优化相比,数值优化是更易于处理的。在多种现实生活中的数据集上的广泛的实验结果显示了该算法的有效性。I重庆大学硕士学位论文中文摘要关键词:数据分布,维数约简,特征选择II重庆大学硕士学位论文英文摘要ABSTRACTHigh-dimensionaldataarisesinmanyareasofmachinelearning,signalandimageprocessing,computervision,patternrecognition,etc.Thehig

7、h-dimensionalityofthedatanotonlyincreasesthecomputationaltimeandmemoryrequirementsofalgorithms,butalsoseverelydegradestheirperformancedueto“curseofdimensionality”.However,high-dimensionaldatausuallyresideonalow-dimensionalstructure.Dimensionalityreduction(DR)istodiscoverthelow-

8、dimensionalstructureinthedata,whichcanhelptoreducethec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。