欢迎来到天天文库
浏览记录
ID:4135953
大小:510.04 KB
页数:7页
时间:2017-11-29
《特征选择算法综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据第19卷V01.19第9期No.9电子设计工程ElectmnicDesignEnginee—ng2011年5月Mav.20ll特征选择算法综述计智伟1,胡珉2,尹建新1(1.浙江农林大学信息工程学院,浙江临安311300;2.上海大学悉尼工商学院,上海200072)摘要:自20世纪90年代以来。特征选择成为模式识别争机器学习领域的重要研究方向,研究成果十分显著,但是也存在许多问题需要进一步研究。本文首先将特征选择视为特征集合空间中的启发式搜索问题。对特征选择涉及的四个要素进行了阐述。然后从各个角
2、度对特征选择算法进行了分类,概述了其各个分支的发展态势,最后探讨了基于多目标免疫优化的特征选择方法的研究思路。关键词:特征选择;特征子集;搜索;多目标优化中图分类号:TPl8文献标识码:A文章编号:1674.6236(2011)09-00删6A蜘Ⅱ叩eyOffeatureselectiona120ritluIIJIZhi—weil。HUMin2。YINJi肌.xinl(1.ScIIIDDl矿删白丌,l以函,l西画,lee矗ng,巩f妇lgAg廊施H以矾d而陀s竹U砌e珞蚵,L访锄311300,吼i加;2
3、.&^捌矿黝加,,,邶£础妇旷如伊呼&com撇rce,矾甜蝴‰妇e格渺,鼢凹lg槭200072,m讹)Ah岫Ict:FeatIlre8electionh酗bt地n蚰imponamt砌眦ha地ain叫temmco印ition明dmachinele砌ingsince90’softlIe20thcentIIry.GD∞t∞hievememsIlavebeenachieved,however肌ulypmble吣mIIIaintobeun舳lved卸d舱edfhnllerinvestig砒ion.Inthispa
4、per,wefirstdescribefeatureselecti哪intemsofheuristiesearchtll姗J曲tllespace0ffeature∞ts,di船u韶ingtIlef曲rfkto礴infeatu陀鸵1ecti∞a190一thms,tlIencl硝si母眦nypopularfeature∞lectionalgoritllmshDmdiffb比n£poin协0fview柚dintmd眦e∞veralembmnchmentsoff白tu肥跎lection蛐dtlIedeveIop
5、ment.Atla8t,wediscusstllere鸵archm伽ghtofanewf曲ture鸵lecti佣如ritllmb拍ed佣multi-objectiveiIl】衄une叩timi疆tionmethod.Keywor凼:featu坨弛kction;featur鸭叫bset;鸵arch;multi.0bjectiveo砸mi强tion特征选择(f毛atu陀∞lecti伽)作为一种常见的降维方法是模式识别的研究热点之一。它是指从原始特征集中选择使某种评估标准最优的特征子集。其目的是使选出的最优特
6、征子集所构建的分类或回归模型达到和特征选择前近似甚至更好的预测精度。这不但提高了模型的泛化能力、可理解性和计算效率.同时可降低“维度灾难”的发生频率。在机器学习领域中,特征选择被认为是跟学习算法紧密联系的一个问题。可表述为:给定一个学习算法L、一个数据集S,S来自一个特征X,,x2,X,,⋯,)【,I的具有类别标记Y的符合分布的样本空间,则一个最优特征子集X叩t是使得某个评价准则J=J(L,S)最优的特征子集。因此。该领域的学者认为特征选择的结果应该用学习算法来评价。特征选择作为统计学领域的经典问题,自
7、上个世纪60年代起就有学者对此进行了研究;同时,它也是机器学习领域的重要问题:自90年代以来,特征选择的研究引起了机器学习领域众多学者前所未有的重视.主要原因有以下三方面:1)许多学习算法的性能受到不相关或冗余特征的负面影响。大多数学习算法所需训练样本的数目随不相关特征的增多而急剧增加【⋯。因此,选择好的特征不仅可以减小计算复杂度,提高预测精度,而且有助于寻找更精简的算法模型。2)大规模数据处理问题的不断出现,如信息检索,遗传基因分析等刚。所谓大规模,一方面指样本数目的庞大,另一方面指描述样本的特征维数
8、高。3)随着应用领域的不断扩大。所遇到的数据类型也将不断变化。因此.特征选择算法的设计需要适应新的数据类型。正是由于上述原因。特征选择的研究成为模式识别和机器学习领域的重要课题。它具有重要的学术意义和实用价值。1特征选择作为搜索问题的4个要素一般而言。特征选择可以看作一个搜索寻优问题。对大小为n的特征集合,搜索空间由≯一1种可能的状态构成。Davie8等证明最小特征子集的搜索是一个NP问题嘲.即除了穷举式搜索。不能保证找到最优解。但实际应用
此文档下载收益归作者所有