欢迎来到天天文库
浏览记录
ID:52768267
大小:1.09 MB
页数:2页
时间:2020-03-30
《基于改进TF_IDF和支持向量机的多类别文本分类_黄璐.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、2013年第9期SCIENCE&TECHNOLOGYINFORMATION○高校讲坛○科技信息基于改进TF·IDF和支持向量机的多类别文本分类黄璐谷军李然李向军(大连海洋大学信息工程学院,辽宁大连116023)【摘要】文本分类技术可以有效提高信息资源的可用性和利用率。提出一种基于改进的TF·IDF和支持向量机(SVM)结合进行多类别文本分类的方法。在文本的TF·IDF特征计算中,加入特征词权重,有效加强了重点词汇的特征标引作用。将提取出的文本特征向量送入组合SVM进行多类别文本分类。实验结果表明,本文提出的多类别文本分类方法具有较好的分类效果,为信息资源的充分利用了奠定良好基础。【关键
2、词】文本分类;单词频度反文档频度;支持向量机;向量空间模型0引言本分类实验的实验语料。首先,从这些下载的文档中,随机选取150个词汇作为特征词。要随着互联网的飞速发展,人们可以获取的电子文本信息的数量也求这些词汇随机出现在所有文档及文档的所有区域。然后,将这些pdf呈指数级增长。如何有效的搜索和管理这些文本数据成为人们面临的文档转换为txt文本文件,以便进行分类处理。随机选取每个领域各巨大挑战。文本分类技术可以提高信息资源的可用性和利用率[1]。200篇文本,构成总数为1000篇的文本训练集。剩余1000篇构成文目前,常用的文本分类方法多是基于统计学和机器学习理论的方本测试集。针对每个
3、文本,抽取其标题、摘要、关键字、正文及结论等5法[2]。其中,TF·IDF方法是公认比较有效的文本特征提取方法,但是在个部分的内容,并分别赋予权重。标题、摘要、关键字部分的权重设置以往的研究中,TF·IDF方法只考虑了特征词的出现频度及包含它的为3,表示出现在这些区域的特征词对该文本很重要。相应地,结论部文档频度,而没有在语义层面上考虑该特征词出现在文本中不同位置分的权重设置为2,正文部分的权重设置为1。对该文本的重要程度,因此存在一定不足。文本分词处理采用正向最大匹配(Maximummatchingmethod,MM)基于上述问题,本文提出一种基于改进TF·IDF和支持向量机分词方法
4、。(SupportVectorMachine,SVM)的多类别文本分类方法,有效加强了3.2文本特征提取及分类重点词汇的特征标引作用,并结合SVM分类器进行多类别分类,达到经过预处理后的文本数据,建立VSM模型,并使用本文改进的了较满意的中文文本分类效果。TF·IDF进行特征提取。使用训练集中全部文本,即每个学科领域各1基于改进TF·IDF的特征提取方法200个文本,共计1000个,构成比例均等的文本集,对SVM分类器进行训练。训练好的分类器在全部1000个测试文本上进行测试。1.1向量空间模型基本SVM算法是为二值分类问题设计的,当处理多类问题时,需针对文本的特征提取中,文本数据通常
5、描述为向量空间模型要构造合适的多类分类器。本文中,通过组合多个SVM二值分类器来(VectorSpaceModel,VSM)。VSM方法把非结构化的文本数据映射到实现多分类器的构造。对于SVM分类器的惩罚因子C和核参数δ,本一个特定的空间,将其表示成计算机可以识别的结构化的向量形式[3]。文采用网格搜索方法确定C和δ的值,通过5倍交叉验证方法对文本针对M个无序的特征词t,建立文本矩阵,每个文本d表示为特征向ij训练集进行网格搜索。量a=(a,a,…,a)。文本分类的评价标准主要依据准确率和召回率这两个指标[6]。文j1j2jMj1.2改进的TF·IDF方法本分类准确率和召回率如图1所示
6、。在TF·IDF计算过程中,只考虑了特征词频度和文档频度,而没有在语义层面上考虑特征词出现在文档中的位置因素。结合中文文献的语义特点,出现在文献不同位置的特征词反映主题的重要程度不同,其对于文献分类的贡献程度也不同。因此,本文为出现在文献不同位置的特征词赋予不同的权重λ。中文文献大体可分为标题、摘要、关键字、正文和结论等五个部分。其中,摘要部分是作者阐述文献主要论点和内容的重要区域,而标题和关键字给出了能够代表文献学科类别的核心词汇,因此,在这些区域出现的特征词最能代表该文献的主题,赋予最高的权重。结论部分简要总结文献内容,给出主要论点,如果一个特征词出现在该区域,说明该特征词很有可能
7、与文献主题相关,赋予其较高的权重。正文部分详细阐述文献细节,出现在正文部分的特图1文本分类结果征词有可能在文献学科领域中不太重要,甚至是不相关的,因此为这些特征词赋予最低的权重。由此,本文给出改进的TF·IDF定义:从上图可以看出,本文提出的方法较好地完成了针对学科领域的lTF·IDF●●t,d=∑TFij∑l×log∑NDF∑(1)ijij×∑k=1λkiji多类别文本分类,说明本文方法在多类别文本分类技术方面具有可行其中,t为第i个特征词,
此文档下载收益归作者所有