基于支持向量机的中文文本自动分类研究_马金娜.pdf

基于支持向量机的中文文本自动分类研究_马金娜.pdf

ID:52768330

大小:243.18 KB

页数:4页

时间:2020-03-30

基于支持向量机的中文文本自动分类研究_马金娜.pdf_第1页
基于支持向量机的中文文本自动分类研究_马金娜.pdf_第2页
基于支持向量机的中文文本自动分类研究_马金娜.pdf_第3页
基于支持向量机的中文文本自动分类研究_马金娜.pdf_第4页
资源描述:

《基于支持向量机的中文文本自动分类研究_马金娜.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第29卷第3期系统工程与电子技术Vol.29No.32007年3月SystemsEngineeringandElectronicsMar.2007文章编号:1001-506X(2007)03-0475-04基于支持向量机的中文文本自动分类研究马金娜,田大钢(上海理工大学管理学院,上海200093)摘要:提出了一种基于支持向量机的文本自动分类方法,并进行了实验研究。在详细介绍了进行文本分类的实验过程和在实验中使用支持向量机的方法的基础上,通过实验比较了支持向量机算法和传统的KNN算法应用于文本分类的效果,并针对支持向量机算法的缺点,提出了进行文本预处理时的改进方法。

2、实验结果表明了支持向量机在处理文本分类问题上的优越性。关键词:文本分类;支持向量机;特征提取中图分类号:TP391.43文献标识码:AResearchofchinese-textautomaticclassificationbasedonSVMMAJin-na,TIANDa-gang(Coll.ofManagement,Univ.ofShanghaiScienceandTechnology,Shanghai200093,China)Abstract:AChinese-textautomaticclassificationmethodbasedonSVMispres

3、ented.AfterdescribingtheexperimentprogrammingoftextclassificationandhowtouseSupportVectorMachinetotextclassification,wecomparetheexperimentresultsofusingSVMandusingthetraditionaltext-classificationalgorithm)))KNNtoChinese-textautomaticclassification,andtocountershortcominginSVM,aimpro

4、vedmethodforpre-process-ingtextisproposed.ItshowsthattheSVMissuperior.Keywords:textclassification;SVM;featureselection0引言传统的KNN算法相比较,证实支持向量机在文本分类上的优越性,并针对其缺点,提出在进行文本预处理时给予所谓/数据丰富但知识缺乏0的现状导致了数据挖掘改善。(DataMining)技术研究的兴起,数据挖掘是从海量的结构1文本预处理化信息中抽取或挖掘隐含信息和知识的重要方法和途[1]径。当前,数据挖掘技术已经相当成熟了。但是,For

5、rest由于文档都是非结构化的,而且文档的内容是人类所Research的统计资料指出,80%以上的数据以非结构化的使用的自然语言,计算机很难处理其语义,因此要进行必要[2]形式存在,如文档、手册、Email、技术报告、专家陈述等。的文本预处理。由于西文文本词与词之间有明显的间隔符所以出现了对从文本中发现知识(knowledgediscoveryin分开的,而中文没有,中文是连续的字串,因此对中文文本texts)的巨大需求。文本挖掘(textminingortextdatamin-预处理时还要进行句子的切分(segmentation)。通常采用ing)就是从文本集中

6、挖掘和发现隐含的归纳知识如关联知词(words)或者n-grams(N-元长度为n的有序单词集合)识、时间序列信息,甚至科学文献的创新推断和假设等。文法来做中文句子的切分。我国对自动分词的相关研究已进本挖掘的具体实现技术主要有:特征提取、主题标引、文本行了十几年,清华大学计算机系、北京大学计算语言学研究分类、文本聚类、自动摘要。本文所要讨论的是文本分类所和山西大学计算机系等都有接近实用的实验系统,它们[3](textclassification)方法。文本分类的任务是基于内容将的切分准确率一般可以超过90%。自然语言文本自动分配给预定义的类别,文本分类既是一1.1

7、文本的特征表示种文本挖掘任务,也是对文本进行深层次挖掘的预处理步文本的特征表示是指用文本的特征信息集合来代表原骤。本文将深入地探讨中文文本分类的关键技术,并研究来的文本。文本的特征信息是关于文本的元数据,可以分当前应用于文本分类效果较好的支持向量机算法,将其与为外部特征和内容特征两种类型。其中外部特征包括文本收稿日期:2006-01-05;修回日期:2006-11-07。基金项目:上海市重点学科基金(T0502);上海市教育委员会发展基金(05E233)资助课题作者简介:马金娜(1979-),女,硕士研究生,主要研究方向为文本挖掘。E-mail:majinna@1

8、63.co

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。