稳定的特征选择算法研究

稳定的特征选择算法研究

ID:33942875

大小:1.25 MB

页数:63页

时间:2019-02-28

稳定的特征选择算法研究_第1页
稳定的特征选择算法研究_第2页
稳定的特征选择算法研究_第3页
稳定的特征选择算法研究_第4页
稳定的特征选择算法研究_第5页
资源描述:

《稳定的特征选择算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、单位代码:10293密级:硕士学位论文论文题目:稳定的特征选择算法研究学号1011040934姓名黄莎莎导师李云教授学科专业计算机应用技术研究方向机器学习和数据挖掘申请学位类别工学硕士论文提交日期二零一四年三月万方数据StablefeatureselectionalgorithmThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByHuangShashaSupervisor:Prof.LiYunMar

2、ch2014万方数据南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。研究生签名:_____________日期:____________南京邮电大学学位论文使用授权声明本人授权南京邮

3、电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索;可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研究生签名:____________导师签名:____________日期:_____________万方数据摘要高维数据正越来越多地充斥于数据挖掘领域,解决高维数据学习问题的传统方法是应用特征选择方法,尽可能地选择一个

4、最小的特征子集(特征模型)来精确地描述学习数据。然而现存的多数特征选择算法存在一个共同的问题:即如果训练集发生轻微的变化,则经过特征选择产生的特征子集不稳定(或鲁棒)。当特征选择应用于知识发现时,算法的稳定性是一个不容忽视的问题。因此,本文的核心是稳定的特征选择算法的研究。首先在有监督的特征选择领域,为了提高算法的稳定性,基于L2正则化项和逻辑损失函数,本文提出了一种新的集成特征选择方法,即特征加权算法,并采用两种线性集成的方式WEn和REn。此外,本文还给出了对所提集成特征加权算法的旋转不变性和统一稳定性的理论分析。在真实数据集的实验结

5、果表明,所提算法具有良好的稳定性和分类性能,并且在稳定性与分类准确率折中方面,本文所提的算法(REn和WEn)中至少有一个算法有高于或者相似于其他算法的性能。在无监督特征选择领域,本文提出了一种过滤冗余特征的算法框架,利用组特征选择的思想来去除冗余特征,同时提高算法的稳定性。在组构造阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想,先利用k-means方法对数据集进行多次聚类得到一个聚类集体。在集成阶段,采用基于互联合矩阵的方法,将点对在同一簇中出现的比例作为它们之间的相似性度量,接下来对聚类集体进行层次聚类,得到最优的集成结果。实验

6、结果表明这种算法框架能有效地消除冗余特征,保证算法稳定性的同时还能获得较好的分类性能。关键词:特征选择,稳定性,集成特征选择,组特征选择,聚类集成I万方数据AbstractHigh-dimensionaldatasetsarebecomingmoreandmoreabundantinthefieldofdatamining.Atraditionalapproachoftacklingthehigh-dimensionallearningproblemsisbasedontheapplicationoffeatureselectionmet

7、hodstoselectasetoffeatures-featuremodels-assmallaspossiblethataccuratelydescribethelearningexamples.Acommonproblemwithmostofthefeatureselectionmethodsisthattheyoftenproducefeaturemodelsthatarenotstable(orrobust)withrespecttoslightvariationsinthetrainingset.Whenselectingfe

8、aturesforknowledgediscoveryapplications,stabilityisahighlydesiredproperty.Therefore,thisstudyisf

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。