资源描述:
《基于SVM的中文文本自动分类研究_马金娜.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、计算机与现代化2006年第8期JISUANJIYUXIANDAIHUA总第132期文章编号:1006-2475(2006)08-0005-04基于SVM的中文文本自动分类研究马金娜,田大钢(上海理工大学管理学院,上海200093)摘要:详细介绍了进行文本分类的过程,并着重介绍了一种新的基于结构风险最小化理论的分类算法)))支持向量机,通过实验比较支持向量机算法和传统的KNN算法应用于文本分类的效果,证实了支持向量机在处理文本分类问题上的优越性。关键词:文本分类;支持向量机;特征提取中图分类号:TP391文献标识码:AResearchonChine
2、se-textAutomaticClassificationBasedonSVMMAJin-na,TIANDa-gang(CollegeofManagement,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China)Abstract:Thispaperdescribesthecourseoftextclassificationandanewefficientclassificationalgorithm)))SupportVectorMachine.Intheend,SV
3、Mandthetraditionaltex-tclassificationalgorithm)))KNNareappliedtoChinese-textautomaticclassification,itisprovedthattheSVMissuperior.Keywords:textclassification;SVM;featureselection文本分类既是一种文本挖掘任务,也是对文本进行深0引言层次挖掘的预处理步骤。本文将深入地探讨中文文所谓/数据丰富但知识缺乏0的现状导致了数据本分类的关键技术,并研究当前应用于文本分类效果挖掘(Da
4、taMining)技术研究的兴起,数据挖掘是从海较好的支持向量机算法,将其与传统的KNN算法相量的结构化信息中抽取或挖掘隐含信息和知识的重比较,证实支持向量机在文本分类上的优越性,并针[1]要方法和途径。当前,数据挖掘技术已经相当成熟对其缺点,提出在进行文本预处理时给予改善。了。但是,ForrestResearch的统计资料指出,80%以[2]1文本预处理上的数据以非结构化的形式存在,如文档、手册、E-mail、技术报告、专家陈述等,所以出现了对从文本中由于文档都是非结构化的,而且文档的内容是人发现知识(KnowledgeDiscoveryinT
5、exts)的巨大需求。类所使用的自然语言,计算机很难处理其语义,因此文本挖掘(TextMiningorTextDataMining)就是从文本要进行必要的文本预处理。由于西文文本词与词之集中挖掘和发现隐含的归纳知识,如关联知识、时间间有明显的间隔符分开,而中文没有,中文是连续的序列信息,甚至科学文献的创新推断和假设等。文本字串,因此对中文文本预处理时还要进行句子的切分挖掘的具体实现技术主要有:特征提取、主题标引、文(Segmentation)。通常采用词(words)或者n-grams(N-本分类、文本聚类、自动摘要。本文所要讨论的是文元长度为n
6、的有序单词集合)法来做中文句子的切本分类(TextClassification)方法。文本分类的任务是分。我国对自动分词的相关研究已进行了十几年,清基于内容将自然语言文本自动分配给预定义的类别,华大学计算机系、北京大学计算语言学研究所和山西收稿日期:2005-09-15作者简介:马金娜(1979-),女,河南项城人,上海理工大学管理学院硕士研究生,研究方向:文本挖掘;田大钢(1958-),男,江西人,副教授,研究方向:决策支持系统,数据挖掘,优化计算。6计算机与现代化2006年第8期大学计算机系等都有接近实用的实验系统,它们的切P(X,Ci)MI
7、(X,Ci)=logP(X)P(Ci)[3]分准确率一般可以超过90%。其中P(X,Ci)为特征项X出现在类Ci中的概率。1.1文本的特征表示互信息的不足之处在于互信息量非常容易受词条的文本的特征表示是指用文本的特征信息集合来边缘概率的影响,使得互信息评估函数经常倾向于选代表原来的文本。文本的特征信息是关于文本的元[9]择稀有词条。数据,可以分为外部特征和内容特征两种类型。其中通过这些公式,可以计算出文本中出现的所有词外部特征包括文本的名称、日期、大小、类型、文本的的权重,并将之排序,根据需要可以有两种选择方式:作者、标题、机构等信息,文本的内容
8、特征包括主题、(1)选择权值最大的某一固定数n个关键词;分类、摘要等特征。目前,在信息处理领域,文本的表(2)选择权值大于某一阈值的关键