欢迎来到天天文库
浏览记录
ID:38113066
大小:338.08 KB
页数:3页
时间:2019-05-25
《基于关键词语的文本特征选择及权重计算方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第27卷第6期计算机工程与设计2006年3月Vol.27No.6ComputerEngineeringandDesignMar.2006基于关键词语的文本特征选择及权重计算方案刘里,何中市(重庆大学计算机学院,重庆400030)摘要:文本的形式化表示一直是文本分类的重要难题。在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关健性作用的特征.提出一种基于关健词语的特征选择及权重计算方案,它利用了文本的结构信息同时运用互信息理论提取出对文本内容起到关健性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中
2、关健词语的贡献,弥补了TFIDF的缺陷。通过采用支持向量机(SVM)分类器进行实验,结果显示提出的Score权重计算法比传统TFIDF法的平均分类准确率要高5%左右.关键词:文本分类;向量空间模型;特征提取;权重计算;支持向量机中图法分类号:TP391文献标识码:A文章编号:1000-7024(2006)06-0934-03TermselectionandweightingbasedonkeywordsintextcategorizationLIULi,HEZhong-shi(CollegeofComputerScience,ChongqingUniversity,Chongq
3、ing400030,China)Abstract:Textrepresentationisconsideredasthemainlyproblemintextcategorization,whichiswidelyusedinthevectorspacemodel.TermweightineachdimensionisitsTFIDFvalue(termfrequency,inversedocumentfrequency).ButTFIDFisnotabletostressthesignificanceofkeytermswhichcontributemainlytotheco
4、ntentofatext.Anoveltermselectionandweightingapproachbasedonkeywordsispresented.Thestructureinformationandmutualinformationtoextractkeywordsareemploye氏andwordlocation,wordde-pendence,wordfrequency,anddocumentfrequencyinweightingaternareintegrated.InSVMclassificationexperiment,theapproachoutpe
5、rformstraditionalTFIDFapproachwithaboostinaverageprecisionabout5%.Kevwords:textcategorization;vectorspacemodel;termselection;termweighting;supportvectormachine理和知识获取任务中更是如此。现有文本分类器的分类准确0引言率之所以不能大幅度地提高,其中的一个主要因素是没能很文本分类就是通过对文本内容的分析,把它关联到预先好地呈现分类的依据,即没能很好地形式化文本。定义的主题类别中。要达到的目标是把人们认为语义相近的1特征选取的
6、研究与现状文本划分到同一个类别。文本分类的主要任务有:文本的形式化表示、构造分类器。国内外己经对分类器展开多年的研在中文文本中,文本表示为一个由汉字和标点符号组成究,按照分类知识的获取方法不同,分为基于统计的方法和知的字符串,由字构成词,由词语构成短语,进而形成句、段、节、识工程的分类方法。基于知识工程的方法主要依赖语言学知章、篇等结构。如直接用这些字符串作为分类的特征,处理起识,需要编制大量的推理规则作为分类知识,实现起来相当复来十分不方便,所以必须寻找一种更加精炼的形式化方法。杂,其开发费用也相当昂贵,这方面的系统有卡内基集团为路1.1文本的形式化表示透社开发的Constr
7、ue系统。现在应用比较多的是基于统计的文本的形式化就是用一定的可计算的特征来表示文本,自动分类法‘u,具有代表性的有贝叶斯分类器。',K-近邻算法在分类的时候就用这些特征来区分文本。文本形式化首先要(K-NN)",以及新兴的支持向量机((SVM)'0'等方法。虽然在文解决的问题是特征粒度的选择,即是选择字、词、句或其它来本分类任务中,大多数工作都集中于分类器的构造,这些分类分类。最初的选择是用字,后来发现用二元同现字串的分类器在一定程度上也都达到了分类的目的,但是准确率都不是方法的准确率要比
此文档下载收益归作者所有