机器学习中的特征选择

机器学习中的特征选择

ID:4135104

大小:473.08 KB

页数:5页

时间:2017-11-29

机器学习中的特征选择_第1页
机器学习中的特征选择_第2页
机器学习中的特征选择_第3页
机器学习中的特征选择_第4页
机器学习中的特征选择_第5页
资源描述:

《机器学习中的特征选择》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据计算机科学2004V01.31N9.11机器学习中的特征选择张丽新王家钦赵雁南杨泽红(清华大学计算机科学与技术系智能技术与系统国家重点实验室北京100084)摘要20世纪90年代以来,特征选择成为机器学习领域的重要研究方向,研究成果十分显著,但是也存在许多问题需要进一步研究。本文首先对特征选择和学习算法结合的三种方式进行了系统的总结;然后将一般特征选择定位为特征集合空间中的启发式搜索问题,对特征选择算法中的四个要素进行了阐述,其中重点总结了特征评估的方法;最后对特征选择的研究现状进行了回顾,分析了

2、目前特征选择研究的不足和未来发展的方向。关键词特征选择,机器学习,搜索算法,评估函数FeatureSelectioninMachineLearningZHANGLi--XinWANGJia-QinZHAOYan--NanYANGZe·-Hong(TheStateKeyLaboratoryofIntelligentTechnologyandSystems,ComputerScience&TechnologyDepartment-TsinghuaUniversity,Beijing100084)Abstrac

3、tFeatureselectionhasbeenanimportantresearchareainmachinelearningsince90’Softhe20thcentury.Greatachievementshavebeenachieved,howevermanyproblemsremaintObeunsolvedandneedfurtherinvestiga—tion.Inthispaper,wemakesystematicsurveyonthethreecombinationmodesoffea

4、tuireselectionwithinductional—gorithm.Wedescribefeatureselectionintermsofheuristicsearchthroughthespaceoffeaturesets,anddiscusstheforufactorsinfeatureselectionalgorithms,inwhichtheevaluationfunctioniSdetailedlyanalyzedanddiscussed.Lastweoverviewtheinvesti

5、gationstatusofthefeatureselection,andpointoutthelimitationsofcurrentresearchandchal—lengesinfuturework.KeywordsFeatureselection,Machinelearning,Searchalgorithm,Evaluationfunction1引言所谓特征就是描述模式的属性,机器学习中的特征选择可定义为:已知一特征集,从中选择一个子集使评价标准最优LlJ。以上定义可表述为:给定一个学习算法L,

6、一个数据集S,数据集S来自一个具有n个特征x。,x:,x3’.一,咒的具有类别标记y的符合分布的例子空间,则一个最优特征子集K。是使得某个评价准则,一~厂(L,S)最优的特征子集。特征选择是机器学习领域的重要问题。在一个学习算法通过训练样本对未知样本进行预测之前,必须决定哪些特征应该采用,哪些特征应该忽略。虽然在学习算法方面已经开展了大量的研究,但特征选择方面的研究则相对较少。自20世纪90年代以来,特征选择方面的研究引起机器学习领域学者前所未有的重视,主要原因有以下两个方面:1)许多学习算法的性能受到不

7、相关或冗余特征的负面影响。已有的研究结果表明,大多数学习算法所需训练样本的数目随不相关特征的增多而急剧增加[1“]。Langley等的研究表明最近邻法的样本复杂度随不相关特征成指数增长,其他归纳算法也基本具有这一属性13,z]。例如,决策树对于逻辑与概念的样本复杂度随不相关特征线性增加,但对于异或概念的样本却是呈现指数增长[11;贝叶斯分类器虽然对不相关特征的存在不敏感,但其性却能对冗余特征的存在很敏感[2]。因此,特征选择对不同情况下的学习算法都有不可忽视的作用。选择好的特征不仅可以减小计算复杂度,提高

8、分类准确度,而且有助于寻找更精简更易理解的算法模型。2)大规模数据处理问题的不断出现。所谓大规模,一方面指样本数目的庞大,另一方面指描述样本的特征维数高。数据挖掘的发展对大规模数据处理的研究提出了迫切的要求,如信息检索,遗传基因分析等[3“】。正是由于上述·180·原因,特征选择成为机器学习领域重要的研究方向,引起越来越多的机器学习领域学者的兴趣。国内外的各大研究机构如CMU,Stanford,Washington,南京大学,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。