类别特征词权重加权文本分类方法

类别特征词权重加权文本分类方法

ID:33327850

大小:78.50 KB

页数:5页

时间:2019-02-24

类别特征词权重加权文本分类方法_第1页
类别特征词权重加权文本分类方法_第2页
类别特征词权重加权文本分类方法_第3页
类别特征词权重加权文本分类方法_第4页
类别特征词权重加权文本分类方法_第5页
资源描述:

《类别特征词权重加权文本分类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、文章编号:1009-8119(2006)03-0038-02类别特征词权重加权文本分类方法万乐刘万春(北京理工大学计算机科学工程系,北京100081)摘要提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征

2、向量中类别特征信息的含量。实验结果显示这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。关键词文本分类,特征抽取,核心特征词,权重因子TextClassificationMethodBasedonClassFeatureWordQuadricWeightWanLeLiuWanchun(DepartmentofComputerScienceandEngineering,BeijingInstituteofTechnology,Beijing100081)

3、AbstractAtextclassificationmethodforsmalltrainingsetisprovided.Initialfeaturevectorextractedbytraditionalautomatictrainingislackofplentyfeatureinformation.Inordertoenrichthefeatureinformationinfeaturevectors,thispaperproposesaretrainingmethod.Inthismeth

4、od,somefirst-degreeandsecond-degreeclasscorefeaturewordsarepickedoutfromtheinitialfeaturevectors.Bythesecondautomatictraining,aweightfactorsforeachdegreecanbeobtained.Suchfactorsareusedastheweightoftheweightofcorefeaturewordswhilemeasuringtext/classsimi

5、larity.Inillustrations,theminimumcoincidencerateofautomaticclassificationaccuracyinourmethodis94.12%,whichisgreatlyimprovedfrom52.94%inthetraditionalmethod.KeywordsTextclassification,Featureextraction,Corefeatureword,Weightfactor1引言基于统计学文本分类方法的研究重点是文本特征

6、抽取和选择[1]。比较成熟的特征抽取方法有互信息(MutualInformation),期望交叉熵(CrossEntropy),文本证据权(TheWeightOfEvidenceForText)[2]等。这些方法,一般都需要上千篇的大训练集,且在此训练集基础上建立起了超高维特征向量(几千甚至上万维)。这样一方面庞大的训练集增加了训练过程代价;另一方面,由于特征向量维度太高,使得后期分类过程速度过慢。而且在大训练集和高维特征向量的前提下这些方法也并未取得良好的分类效果。主要原因在于,训练过程中建立的高维

7、度特征向量含有很多虚假信息『4』,这无疑增加了分类器在类别判断时的难度。根据手工标定文本类别的经验,我们知道,在几千甚至上万个词组成的文本中,真正对判别文本类别起到决定作用的仅仅只有几个或是十几个词,这些词为类别核心特征词。本文基于标定类别核心特征词的思想,提出了一种类别特征词权重加权文本分类方法。此方法在抽取类别特征词的基础上进一步标定类别核心特征词,并且利用训练得到的核心特征词权重加权因子对核心特征词权重进行加权,进而丰富了类别特征向量的类别特征信息含量,提高了分类器性能。2类别特征向量的建立类别

8、特征向量建立的关键在于从属于这一类别的文本集中选择和抽取能表征这一类别的类别特征向量[5]。为了提高类别特征向量的类别针对性,本文分两步完成类别特征向量建立。首先用基于词条/类别条件概率的简单特征抽取方法,为每个类别建立初步的类别特征向量,然后基于初步类别特征向量,标定每个类别的核心特征词,建立起具有强针对性、低维度的类别特征向量。2.1类别特征向量组成外围二级核心特征词一级核心特征词图1类别特征向量组成外围外围特征词外围特征词特征词针对小训练集环境,本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。