基于支持向量机的中文文本自动分类研究_王凯.pdf

基于支持向量机的中文文本自动分类研究_王凯.pdf

ID:52768243

大小:143.91 KB

页数:3页

时间:2020-03-30

基于支持向量机的中文文本自动分类研究_王凯.pdf_第1页
基于支持向量机的中文文本自动分类研究_王凯.pdf_第2页
基于支持向量机的中文文本自动分类研究_王凯.pdf_第3页
资源描述:

《基于支持向量机的中文文本自动分类研究_王凯.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第11期王凯等:基于支持向量机的中文文本自动分类研究#61#*基于支持向量机的中文文本自动分类研究王凯,周建国,夏德麟,晏蒲柳,董伟钛(武汉大学电子信息学院,湖北武汉430079)摘要:首先对文本提取特征向量,再利用词语相似度求出文本特征子集,由支持向量机进行文本分类,实现了一个中文文本自动分类系统,并对该系统进行了针对SVM大规模真实文本的试验测试。试验表明,该方法的系统的招回率较低,而准确率较高,取得了令人满意的结果。关键词:文本分类;支持向量机;招回率;准确率中图法分类号:TP311113文献标识码:A文章编号:1001-3695(2005)11-0061-03Study

2、onChineseTextCategorizationBasedonSupportVectorMachineWANGKa,iZHOUJian-guo,XIADe-lin,YANPu-liu,DONGWe-itai(SchoolofElectronicInformation,WuhanUniversity,WuhanHubei430079,China)Abstract:Firstwegetthefeatureextraction,thengetthetextfeaturesunsetbyusingthesmiilarityofwords,lastwegettextcategori

3、zationbyusingthesupportvectormachine,thetestsonthetruelarge-scaletextaremade.Theresultsshowthatthere-calliscomparativelylowandtheprecisioniscomparativelyhigh.Keywords:TextCategorization;SupportVectorMachine(SVM);Recal;lPrecision根据文本数据学习的特点,采用支持向量机(SVM)学习的类别中出现概率低的词条T将获得较高的词条和类别互信算法,并采用了词语相识度

4、的方法,实现了一个中文文本自动息,即可以被选为类别的特征向量。但是由于各类的样本数目分类系统。SVM试验结果显示,系统的招回率较低,而准确率不一样,比如类别Ci有100个样本,而Cj只有一个样本,这较高。试验表明,该方法有效地提高了系统的分类性能。时,即使某个词T与Ci的相关程度很小,由于计算得出得Ci支持向量机是根据统计学习理论提出的一种VapnikV新的互信息很大而被选中为特征项,相反同样不可靠。因此我们[1~3]的机器学习方法,它以结构风险最小化原则为理论基础,引入文本量占整个文本集的比率来修正上面的结果,用N(i)通过适当选择函数子集及其该子集中的判别函数使学习机的表示

5、类别Ci中出现的词条总数,于是互信息公式改进为实际风险达到最小,保证了通过有限训练样本得到的小误差分P(T

6、Ci)jN(j)RMI(T,Ci)=log[#](2)类器对独立测试集的测试误差仍然小,得到一个具有最优分类P(T)N(i)能力和推广泛化能力的学习机。以/电脑0为例计算它们与类别/计算机0的互信息,对于/电脑0,p(电脑

7、计算机)=0173,p(电脑)=0121,而在所有的1文本特征向量的提取训练文本中出现/电脑0的总数是10479,在计算机文档中出现/电脑0的总数为8639,因此RMI(电脑,计算机)=特征向量,也就是关键词,提取特征向量就是通过对已经0162496。

8、分好类的文本集进行处理,通过词频统计和计算词频与文本类别之间的关系,然后选择与文本类别最大的词作为关键词,从2最优文本特征子集形成而选择特征集。文本分类中的特征选择和特征抽取是用机器[4]学习的方法进行文本分类的首要任务和关键任务。文本的确定了文本的特征抽取函数后,就需要确定分类特征的阈特征采用文本中能表达文本内容的词条T(token)作为特征值。由上述可知,通过分词获取的文本特征集的特征数非常项,于是文本的特征向量为d=(T1,T2,,,Tn),元素Ti是词高,所有就必须对特征集进行筛选。如果分类阈值太小,会使条,同样,类别也可以由其特征表示为C=(T1,T2,,,Tn)。文

9、本特征子集过大,用SVM学习效率就会非常低甚至学习不(C)表示类别。我们引入词条和类别的互信息(MutualInfor-了;如果阈值太大,又会使文本特征子集过小,从而影响分类准mation)的特征评分函数:确性。我们将阈值定为015,例如对于计算机类文本,根据前P(T

10、Ci)面的计算RMI(电脑,计算机)=0162496,所以/电脑0这一项MI(T,Ci)=log[](1)P(T)将被选为计算机类的特征。其中P(T

11、Ci)是T在Ci中出现的概率,P(T)是T在整个训练211词语相似度的引入集

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。