基于tor-r方法的特征选择算法研究

基于tor-r方法的特征选择算法研究

ID:33550064

大小:6.34 MB

页数:59页

时间:2019-02-27

基于tor-r方法的特征选择算法研究_第1页
基于tor-r方法的特征选择算法研究_第2页
基于tor-r方法的特征选择算法研究_第3页
基于tor-r方法的特征选择算法研究_第4页
基于tor-r方法的特征选择算法研究_第5页
资源描述:

《基于tor-r方法的特征选择算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代号:10532学号:S11102047密级:普通湖南大学硕士学位论文基于Top.r方法的特征选择算法研究堂僮由逭厶姓名!赵至昱垣丝刍盈驱鏊!拯胜副夔攫诠室握童旦翅;2Q!垒生§旦!垒旦筌蹬委虽金圭廑!廛选敦援ResearchonFeatureSelectionAlgorithmBasedonTop—rMethodZHAOJunB.E.(ANHUIUNIVERSITYOFTECHNOLOGY)201AthesissubmittedinpartialsatisfactionoftheRequirementsforthedegreeofMasterofScienee

2、ComputerScienceandTechnologyintheofSupervisorAssociateProfessorYANGShengMay,2014湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:易鹭日期:p-v年6月厂日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,

3、同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于l、保密口,在——年解密后适用本授权书。2、不保密切。(请在以上相应方框内打“√’’)作者签名:导师签名:缸啤如皑1日期:弘IV日期:山Ⅳ年‘月孓日年么月r日基于Top.r方法的特征选择算法研究摘要随着信息技术的不断发展,信息获取能力的不断提高,人们往往需要分析和处理各种高维数据,如:海量web数据、遥感图像、微阵列数据等等。这些高维数据通常会导

4、致机器学习算法的计算量成指数倍增长,引发“维数灾难”问题,因此对于高维数据的特征选择问题已成为数据挖掘领域的~个重要课题。通过特征选择技术将高维数据对象从高维特征空间映射到低维特征空间,这些低维特征更能体现出数据对象的本质含义,同时又能提高数据分析处理的效率。本文以微阵列数据为例作为实验数据,对高维数据的特征选择方法的理论思想和实际应用进行了深入研究和探讨。主要工作包括以下几个方面:提出了一种基于特征相似性的特征选择算法,首先使用局部标准化信噪比方法剔除无关特征,然后对剩余特征进行聚类,并将簇中特征数较少的簇当做噪音特征剔除,噪音特征剔除之后,会得到k个簇,其中簇内

5、特征相互冗余度较高,而簇间特征相互冗余度较低,然后根据本文提出的评价标准,依次对每个簇中的每个特征进行评价,并决定是否剔除,将最终剩下的特征集合到一起。并按照单独分类能力的大小进行排序。实验表明,算法可以很好的剔除无关特征、噪音特征和冗余特征。分析基于特征相似性的特征选择算法和Top.r特征选择算法各自的优缺点,然后将这两种特征选择算法结合起来,取长补短,使得结合后的新算法不仅可以充分考虑不同特征组合带来的分类优势,同时又能保证算法的执行效率较高。新算法首先将特征集合进行删减,得到一个无关特征和冗余特征较少的特征子集;然后将该特征子集中相互冗余的特征划分到不同块中,

6、相互不冗余的特征划分到同一块中;最后对特征块执行Top-r方法,选择最优的特征组合。实验表明,新算法不仅可以选择出较好的特征组合,又能保证算法的执行效率较高。关键词:特征选择;Top-r方法;数据挖掘;机器学习II硕士学位论文AbstractWiththecontinuousdevelopmentoftheinformationtechnologyandconstantimprovementofinformationobtainingability,peopleoftenneedtoanalyzeanddealwithvarioushighdimensionalda

7、ta,suchasthemassofwebdata.remotesensingimages,microarraydataetc.Thesehighdimensionaldatausuallyleadtotheexponentialincreaseofthecalculationofmachinelearningalgorithm,causing“thecurseofdimensionality”.Therefore,featureselectiontechnologyforhighdimensionaldatahasbecomeanimportantsubjec

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。