基于信息增益的多标签特征选择算法-论文.pdf

基于信息增益的多标签特征选择算法-论文.pdf

ID:57924620

大小:415.27 KB

页数:5页

时间:2020-04-14

基于信息增益的多标签特征选择算法-论文.pdf_第1页
基于信息增益的多标签特征选择算法-论文.pdf_第2页
基于信息增益的多标签特征选择算法-论文.pdf_第3页
基于信息增益的多标签特征选择算法-论文.pdf_第4页
基于信息增益的多标签特征选择算法-论文.pdf_第5页
资源描述:

《基于信息增益的多标签特征选择算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第42卷第7期计算机科学Vo1.42No.72015年7月ComputerScienceJuly2015基于信息增益的多标签特征选择算法李玲刘华文h。徐晓丹赵建民(浙江师范大学数理与信息工程学院金华321004)(中国科学院数学与系统科学研究院北京100055)摘要多标签特征选择是一种提高多标签分类器性能的技术。针对目前这类技术在给出合理特征子集合时无法同时兼顾计算复杂度和标签间的相关性的问题,提出一种基于信息增益的多标签分类算法。该算法假设特征之间相互独立,首先使用单个特征与整个标签集合之间的信息增益来度量这两者的关联程度,再根据阈值删除不相

2、关的特征以得到最优特征子集合。实验表明,该算法能有效地提高多标签分类器的分类性能。关键词数据挖掘,多标签分类,特征选择,信息增益中图法分类号TP391.4文献标识码ADOI10.11896/j.issn.1002—137)(.2015.7.012Multi-labelFeatureSelectionAlgorithmBasedonInformationGainLILingLIUHua-wen’。XUXiao-danZHAOJian-min(CollegeofMathematics,PhysicsandInformationEngineering

3、,ZhejiangNormalUniversity,Jinhua321004,China)(AcademyofMathematicsandSystemsScience,ChineseAcademyofSciences,Beijing100055,China)AbstractMulti-labelfeatureselectionisakindoftechnologywhichisusedtoimprovetheperformanceofmulti—labelclassifiers.However,theexistingmulti—labe1fea

4、tureselectionmethodsfai1tomakeatradeoffbetweenthepossiblede—pendenceamongthelabelsandcomputationalcomplexityintheprocessofobtainingreasonablefeaturesubsets.There—fore,anovelmulti—labelfeatureselectionalgorithmbasedoninformationgainwasproposedintheessay.Itassumesthatthefeatur

5、esareindependentwitheachother.Theproposedmethodfirstlyusesinformationgainbetweenasinglefea—tureandasetoflabelstomeasuretheircorrelationdegree.andthenremovestheirrelevantandredundantfeaturesac—cordingtoathresholdvalue.Theexperimentalresultsshowthattheproposedalgorithmcanmoree

6、ffectivelypromotetheperformanceofmulti-labe1classifiers.KeywordsDatamining,Multi-labellearning,Featureselection,Informationgain增益的算法。该算法采用近似信息增益度量分别度量特征与1引言标签集合和特征与已选特征集合的关联程度,每次选择与标多标签分类是数据挖掘领域的研究热点之一,并已在蛋签集合关联最大而与已选特征集合关联最小的特征。该算法白质功能分类[13、文本分类[23、语义场景分类[3]等领域取得广只能获得一个特征排名

7、序列。泛应用。多标签分类是针对多标签数据的特点,获取相应的为此,Spolao等人[9]提出了一种能直接给出特征子集合分类模型,并依此判断未知数据的类别的过程[4]。与传统的的算法。该算法首先针对每个特征,分别使用评价标准度量单标签分类一样,多标签分类同样面临维灾难_5]问题。为了增益度量特征与标签集合中的每个标签的关联程度;再对它解决这个问题,通常的做法是对多标签数据实施特征选择操们实施平均化操作;然后以均值评价该特征的重要程度;最作,以降低高维性所引起的不利影响。后,根据阈值剔除不重要的特征。若评价标准是ReliefF,则特征选择是依据给定的

8、评价标准,选择一个最能保持数阈值为0.01;若评价标准是信息增益,则阈值为0.1。张振海据原始特性的最优特征子集的过程I6]。迄今为止,已有多种等人[

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。