欢迎来到天天文库
浏览记录
ID:43768230
大小:226.46 KB
页数:11页
时间:2019-10-14
《基于词条频率的特征选择算法研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于词条频率的特征选择算法研究徐燕孙春明王斌李锦涛(中国科学院计算技术研究所,北京,100080)(xuyan@ict.ac.cn,电话010-62600635jtli@ict.ac.cn)摘要:特征选择是解决文本分类小特征空间高维性的难题的冇效方法。在文本分类中经常用到的自动特征选择方法都将词条在文档中出现一次和出现多次的情况同等对待,因而忽略了词条频率(TF)佶息。本文提岀了加入TF信息的改进的特征选择方法,有效的利用了TF信息,从而提高了文本分类的粘确度。试验结果表明,改进的特征选择方法的试验效果比原始的特征选择方法的效果冇明显的捉高。关键词:文本分类、特征选择、词
2、条频率AstudyofFeatureSelectionforTextCategorizationBaseonTermFrequencyAbstract:Amajordifficultyoftextcategorizationisthehighdimensionalityofthefeaturespace・Thesefeatureselectionmethodsdonotcarethetermfrequency,thatis,atermisonemoretimesoccurs(evenhighfrequency)inadocumentisthesamethatoccurso
3、nceinadocument.TermFrequency,abbreviatelyknownasTFisoneofthemostpopulartermweightingschemesinIR・TFassumesthat"multipleappearancesofaterminadocumentaremoreimportantthansingleappearances^・InthispaperweputforwardimprovedDF,IGandMlmethodswhichconsiderthetermfrequencyinadocument.Experimentshow
4、sthatourimprovedmethodswhichuse(ermfrequencyinformationareseennotableimprovementsintheperformancethantheoriginalDF,IGandMImethods.Keywords:textcategorization,featherselection,termfrequency1引言文木自动分类任务是对未知类别的文字文档进行自动处理,判别它们所属预定义类别集中的一个或多个类别。随着各种电子形式的文本文档以指数级的速度增长,冇效的信息检索、内容管理及信息过滤等应用变得越來越重耍
5、和I木I难。文本口动分类是一个有效的解决办法,已成为一项具有实用价值的关键技术。近些年来,大量的统计分类方法和机器学习理论被应用于文本分类领域。文木分类的最人问题z—是特征空间的高维性和文档表示向量的稀疏性。在文木分类中通常采用词条作为独立的语义载体,原始特征空间由文章中可能出现的全部词条构成。而文章中可能岀现的词条的数量极大,这样的高维特征空间对几乎所有的分类算法來说都是不对接受的,因而,寻找一种有效I的特征选择方法,有效地降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中需要解决的问题。现有的最常用的特征选择算法有文档频率(DF)、信息增益(IG)、互信息(
6、MI)、X2统计(CHI)、词强度(TS)等,这些特征选择方法冇一个共同点:他们忽略的词条频率(TF),本项目受国家973项目(课题号:2004CB318109)和国家自然资金项目(课题号:60473002)的资助。也就是说,它们没有区分一个词条在一•个文档中出现一次和出现多次的情况。Termfrequencyinverseddocumentfrequency(TFIDF)是信息检索屮最常用到的词条权重排序方法Z—⑵,它认为在文档小出现一次的词条比出现多次的词条重要。在本文小,我们认为高频词汇比低频词汇具有更多的信息,因而我们対丁•词条在文章中出现一次和出现多次区分对待,
7、我们将词条在文章中的状态分为三类:0(词条在D屮没有岀现)、1(词条在D中只出现一次)、2(词条在D中出现多次)。根据此思想,本文改进了DF、M1、1G方法,提出了加入词条频率的improveDE,improveIGandimproveMI方法。2特征选择方法比较常用的特征选择方法有DF、MI、IG方法等,下面介绍一下这三种方法[1]。文档频率(DF)是语料集中包含某个词条的文档的个数。通过文档频率进行特征选择就是将文档频率小于某一阈值的词删除,从而降低特征空间的维数。YangandPedersen的试验表明:在分类效果没冇变
此文档下载收益归作者所有