高维小样本数据的特征选择研究及其稳定性分析

高维小样本数据的特征选择研究及其稳定性分析

ID:33895379

大小:2.88 MB

页数:75页

时间:2019-03-01

高维小样本数据的特征选择研究及其稳定性分析_第1页
高维小样本数据的特征选择研究及其稳定性分析_第2页
高维小样本数据的特征选择研究及其稳定性分析_第3页
高维小样本数据的特征选择研究及其稳定性分析_第4页
高维小样本数据的特征选择研究及其稳定性分析_第5页
资源描述:

《高维小样本数据的特征选择研究及其稳定性分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、厦门大学学位论文原创性声明本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。本人在论文写作中参考其他个人或集体已经发表的研究成果,均在文中以适当方式明确标明,并符合法律规范和《厦门大学研究生学术活动规范(试行)》。另外,该学位论文为()课题(组)的研究成果,获得()课题(组)经费或实验室的资助,在()实验室完成。(请在以上括号内填写课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特别声明。)声明人(签名)-宁永鹏矽修年,月,7日厦『]大学学位论文著作权使用声明f嘲刿本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》等规定保留和使用此学位论文,并向主管部门或其指

2、定机构送交学位论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于:()1.经厦门大学保密委员会审查核定的保密学位论文,于年月日解密,解密后适用上述授权。()2.不保密,适用上述授权。(请在以上相应括号内打“√”或填上相应内容。保密学位论文应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用上述授权。)声明

3、人(签名):雪移朋乌矽/笋年岁月,7日摘要随着生物信息学、图像处理、文本挖掘等大规模数据挖掘问题的不断涌现,数据挖掘的研究对象越来越复杂,对象的特征维数也越来越高。在现实生活及科学研究中产生了大量的高维小样本数据,如果直接利用这些高维小样本数据进行数据挖掘,容易出现维数灾难问题。通过特征选择,可以删除高维小样本数据中的冗余特征和噪声特征,从而降低学习算法的时问和空间复杂度,避免维数灾难。已有的特征选择方法主要侧重于特征选择结果的高分类性能或者聚类性能,而忽略了特征选择结果的稳定性。特征选择的稳定性问题对于高维小样本数据的数据挖掘与机器学习过程是非常重要的,不稳定的特征选择结果将带来很多歧

4、义,难以获取可以理解的真实特征。本文以高维小样本数据的特征选择及其稳定性为研究对象,做了如下主要工作:1.通过大量地阅读特征选择及其稳定性的相关文献,系统地介绍了特征选择稳定性的概念、意义,详细地整理了已有的稳定性度量方法,对现有的稳定性特征选择方法进行整理研究,为后续的研究打下基础。2.提出了一种高维小样本数据的特征选择方法——基于随机森林的递归聚类消除特征选择方法RF—RcE.RF—RCE是在svM.RCE以及ISvM—RCE的基础上提出的。RF.RcE在IsVM.RcE的框架上使用随机森林的特征重要性给特征评分,由于随机森林在处理高维小样本数据集上的优越性,使得RF—RcE在保持分

5、类准确率和特征选择的稳定性的基础上,极大地提高了特征选择的时间效率,并且能够解决IsVM.RcE不能解决的超高维数据集。3.为了提高特征选择的稳定性,本文系统地整理并分析了特征选择不稳定的原因,并进行了大量的实验验证,此外本文引入了一种新的稳定性度量方法,该度量方法同时考虑了基于特征子集和特征排序的稳定性度量方法。在已有的稳定特征选择方法的研究基础上,本文提出了一种基于随机森林思想的稳定特征选择方法——随机集成特征选择方法REFS,通过在多个高维小样本数据集上进行实验,验证了所提方法的有效性。关键词:高维小样本;特征选择;稳定性;随机森林AbstractWitlltherapimydeV

6、eloprnentofbioinfoⅡ11atics,imageprocessing,textmiIlinga11domerlarge-scaledataminingpmblenls,thestudyofdataminingismorccomplex.111reallifea1】【dscienti矗cresearch,alotofllighdimensionalitysmallsamplesizedataweregenerated,ifweusemese11ighdimensionalitysmaUs锄plesizedatafordatamiIlingdirectly,itwillpro

7、netotllecurseofdimensionali吼Featureselectioncanreducethedimensionalityofhighdimensionalitysmalls锄plesizedataby础noVeredlllldaIlcyfeatures柚dnoisecharacteristics,improVemeclassificationaccumcy,reducethealgorimmcomplexity,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。