欢迎来到天天文库
浏览记录
ID:37943797
大小:1.25 MB
页数:53页
时间:2019-06-03
《基于遗传算法的高维数据特征选择和特征子集的组合分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中山大学硕士学位论文基于遗传算法的高维数据特征选择和特征子集的组合分析姓名:黄焕宇申请学位级别:硕士专业:计算机软件与理论指导教师:印鉴20060601基于遗传算法的高维数据特征选择和特征子集的组合分析计算机软件与理论硕士生:黄焕宇指导教师:印鉴教授摘要生物信息学、信息检索以及图像挖掘等大规模机器学习问题的不断涌现,对已有的特征选择算法和机器学习算法提出了严峻的挑战。人们迫切需要适应大规模数据集的特征选择算法和机器学习算法,并且对它们的准确性和运行效率等综合性能都有较高的要求。本文在高维数据的特征选择算法和基于特征选择的组合分类器构建问题上开展了研究。文章提出了一种综合了
2、Filter模型及Wrapper模型的特征选择算法FSRAGA。该算法首先利用特征与类别标签的相关性分析进行特征筛选,只保留与类别标签具有较强相关性的特征,然后针对经过筛选的精简特征子集采用遗传算法进行随机搜索,用分类错误率作为评价标准。实验比较表明,该算法能发现更好的特征子集从而实现降维并提高分类精度。本文在FSRAGA算法的基础上,查找出一系列分类性能较优的候选特征子集,引用特征子集的稳定性概念作为评价标准,利用差异性较大的特征子集组合来构造组合分类器,实验表明该评价标准有助于提高组合分类器的性能。关键词:特征选择;数据挖掘;遗传算法:特征子集稳定性;组合分类器基于遗
3、传算法的高维数据特征选择和特征子集的组合分析FeatureSelectionBasedonGAandAnalysisofFeatureSubsetsEnsembleCompmerSoftwareandTheoryName:HuangHuanyuSupervisor:ProfessorYinJianAbstractTheeme唱enceofhigh-dimensionalmachinelearningfieldssuchasbioinformatics,informationretrievalandimageprocessingposedseverechallengesto
4、thee五stingfeatureselectionandmachinelearningalgorithms.Thispapermainlystudiesonfeatureselectionandfeaturesubsetsensemble.AnewfeatureselectionmethodFSRAGAiSproposed,whichcombiningFilterandWrappermodels.Itfirstfiltersfeaturesbyfeaturerelevanceanalysis.andrealizesthenearoptimalfeattiresubset
5、searchonthecompactfeattiresubsetbygeneticalgorithm;andthefeaturesubsetisevaluatedbv山eclassificationinaccuracy.Theexperimentsshowsproposedalgorithmprovidesbeaerfcaturesubsets.whichresults.mthelOW.dimensionaldataandthegoodclassificationaccuracy.BasedonFSRAGA,aseriesoffeaturesubsetswithbeRer
6、classificationaccuracyareprovided.Stabilityoffeaturesubsetsisusedascriteria,toconstructensembleclassifiersbysearchingfeaturesubsetsoflargerdiversity.Theexperimentsshowthatsuchcriteriacanefficientlyimprovetheperformanceofensembleclassifiers.Keywords:Featureselection;Datamining;GeneticAlgor
7、ithm;StabilityofFeaturesubsets;EnsembleofclassifiersⅡ基于遗传葬法的高维数据特征选择和特征子集的组合分析第1章引言1.1数据挖掘的产生与发展在过去的三十年,随着计算机硬件技术、数据收集技术和数据存储技术的快速发展,各行各业都逐步建立起各自的数据库体系。在这些数据库中存放着大量的数据,人们所关注的问题是如何有效地利用这些信息使之能够应用到生产实践当中。收集和存储数据的轻松简便,已经完全改变人们对数据分析的态度:尽可能地收集各种数据。不管收集目的是否明确,人们相信收集的数据肯定会
此文档下载收益归作者所有