欢迎来到天天文库
浏览记录
ID:4124908
大小:622.94 KB
页数:7页
时间:2017-11-29
《基于信息熵的特征选择》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、1402013,49(10)ComputerEngineeringandApplications计算机工程与应用基于信息熵理论的特征权重算法研究郭红钰GUOHongyu华北计算技术研究所,北京100083NorthChinaInstituteofComputerTechnology,Beijing100083,ChinaGUOHongyu.Researchontermweightingalgorithmbasedoninformationentropytheory.ComputerEngineeringandAppl
2、ications,2013,49(10):140-146.Abstract:Textrepresentationisanimportantprocesstoperformtextcategorization,andthemethodoftextrepresentationplaysanimportantroleinthefinalclassificationaccuracy.ThispaperproposesanewtermweightingalgorithmETFIDF(EntropybasedTFIDF)base
3、doninformationentropytheorytoovercomethelimitationsofthetraditionaltermweightingalgorithmTFIDF(TermFrequencyandInvertedDocumentFrequency).ETFIDFnotonlyconsidersthenumberoftimesatermoccursinadocumentandthenumberofdocumentsintrainingsetinwhichatermoccurs,butalsot
4、akesintoaccountthedistributionofdocumentsinthetrainingsetinwhichthetermoccurs.ExperimentalresultsshowthatETFIDFoutperformsTFIDFintextcategorization.Furthermore,detailedtheoreticalanalysisandexperimentalstudyontherelationshipbetweenETFIDFandfeatureselectionhaveb
5、eendoneinthispaper.Experimentalresultsshowthat,itcanrepresentthetextmoreaccuratelyifwetakeintoaccountthedistri-butionofdocumentsinthetrainingsetinwhichthetermoccursinthetextrepresentationstage.Moreover,itcanachievehigherperformanceforthecombinationofETFIDFandfe
6、atureselectionalgorithmifweconsiderboththeaccuracyandefficiency.Keywords:informationentropy;termweighting;featureselection;textcategorization摘要:文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(TermFrequencyandInvertedDocumentFrequency)中存在的不
7、足,提出了一种基于信息熵理论的特征权重算法ETFIDF(EntropybasedTFIDF)。ETFIDF不仅考虑特征项在文档中出现的频率及该特征项在训练集中的集中度,而且还考虑该特征项在各个类别中的分散度。实验结果表明,采用ETFIDF计算特征权重可以有效地提高文本分类性能,对ETFIDF与特征选择的关系进行了较详细的理论分析和实验研究。实验结果表明,在文本表示阶段考虑特征与类别的关系可以更为准确地表示文本;如果综合考虑精度与效率两个方面因素,ETFIDF算法与特征选择算法一起采用能够得到更好的分类效果。关键词:信
8、息熵;特征权重;特征选择;文本分类文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.1301-00231向量空间模型中的特征向量的特征的重要程度不低于只出现一次的特征。特征空间中不同特征项对文档的重要程度和对分类(3)规范化(Normalization)假设:同样的特征匹配数,的贡献是不同的,因此文本
此文档下载收益归作者所有