欢迎来到天天文库
浏览记录
ID:4129520
大小:390.58 KB
页数:9页
时间:2017-11-29
《集成学习中特征选择技术》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据第13卷第5期2007年10月上海大学学报(自然科学版)JOURNALOFSHANGHAIUNIVERSITY(NATURALSCIENCE)V01.13No.5Oct.2007文章编号:1007.2861(2007)05—0598—07集成学习中特征选择技术李国正,李丹(上海大学计算机工程与科学学院,上海200072)摘要:集成学习和特征选择是当前机器学习领域中的研究热点.集成学习通过重复采样可产生个体学习器之间差异度,从而提高个体学习器的泛化能力,特征选择应用到集成学习可进一步提高集成学习技术的效果,该研究有3个方面:数据子集的特征选
2、择、个体学习器的选择和多任务学习,该文对近几年集成学习中特征选择技术的研究进行回顾,尤其对以上3个方面的研究分别进行总结,提出一些共性的技术指导以后的研究.关键词:集成学习;特征选择;多任务学习中图分类号:TPl81文献标识码:AFeatureSelectionforEnsembleLearningLIGuo—zheng,LIDan(sch00lofComputerEngineeringandScience,SlmnghaiUniversity,Shanghai200072,China)Abstract:Ensemhlelearningandfe
3、atureselectionarehottopicsinmachinelearningstudies.Theimprovementofgeneralizationpedommnceofindividualscomes埘marilyfromthediversitycausedbym—samplingthetrainingset.Featureselectionforensemblelearningcmlalsoimprovediversityinthreeaspects:featureselectionforindividuals,selectiv
4、eensemblelearning,andmulti-tasklearning.Thispapergivesalloverviewoffeatureselectionmethodsforensemblelearninginrecentyears,andsummarize$omegeneraltechniquesusefulinthefurtherstudies.Keywords:ensemblelearning;featureselection;multi—tasklearning集成学习和特征选择是当前机器学习中的两大研究热点,其研究成果已被广
5、泛地应用于提高单个学习器的泛化能力.集成学习因其个体学习器的高精度和个体学习器的误差分布于不同的输入空间而取得了较好的效果⋯,其中bagging和boosting是目前比较流行的两种集成学习方法”“,其性能的提高主要来自于对子模型训练数据集的重复取样”’.而特征选择按其方法可归纳为以下3类:滤波式模型、卷积模型和嵌入式模型‘孓”.其中,滤波式模型是与学习器无关的特征选择方法,后两者特征选择方法则依赖于相应的学习器,但最近新提出的嵌入式模型计算复杂度要远低于卷积模型.目前,已有多个研究将特征选择应用于构建新的集成学习方法.例如Ho提出了构建决策森林
6、的随机子空间方法“1,并且后来又提出了改进方法”1;ooin提出了基于遗传算法的特征选择的集成学习算法”“;Oliveim等人运用了多目标的遗传算法””;Brylla等人提出了基于随机特征选择的特征bagging方法““;TsvlIlbal等人研究了集成特征选择方法的不同搜索策略“”,继而又提出运用遗传算法进行集成收穑日期:2呻7.04-05基金璜目:国家自然科学基盘_葑助项H(20503015);上海市教委自然科学基金资助项日(05AZ67)通信作者:李国IT(1977一),男.副研究员,博士,研究方向为机器学习、数据挖掘、模式识别、生物信息学
7、等.E-mail:gzli@slm.edu.cn万方数据第5期李国正,等:集成学习中特征选择技术特征选择”“.从总体上看,以上基于特征选择的集成学习方法均是通过产生不同的特征子集来构建不同的个体模型“’,而bagging和boosting则与之不同,是通过产生不同的样本子集来构建不同的个体学习模型.然而.很少有人对重复取样(如bagging和boosting方法)的基础上进行特征选择的方法进行研究.由此,我们研究了bagging方法中特征选择技术的应用.提出了若干新算法,并将新算法应用到实际案例中.在bagging方法中特征选择的应用有3个方面:
8、一方面是运用特征选择对bagging方法中boostrap方法产生的个体子集进行特征选择,从而提高个体的差异和精度,研究主要是运用嵌入式
此文档下载收益归作者所有