欢迎来到天天文库
浏览记录
ID:4122868
大小:320.85 KB
页数:3页
时间:2017-11-29
《一种基于特征投票的文本分类方法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第36卷第9期计算机工程2010年5月Vol.36No.9ComputerEngineeringMay2010·人工智能及识别技术·文章编号:1000—3428(2010)09—0200—03文献标识码:A中图分类号:TP311一种基于特征投票的文本分类方法1,21焦庆争,蔚承建(1.南京工业大学信息科学与工程学院,南京210009;2.安徽师范大学信息管理中心,芜湖241000)摘要:基于特征投票机制设计一种线性文本分类方法,运用信任机制理论分析文档类别对特征的信任关系,给出具体特征信任度的模型,并在
2、Newsgroup、复旦中文分类语料、Reuters-215783个广泛使用且具有不同特性的语料集上与传统方法进行比较。实验结果表明,该方法分类性能优于传统方法且稳定、高效,适用于大规模文本分类任务。关键词:文本分类;特征投票;经验概率;自然语言处理TextCategorizationMethodBasedonFeaturesVote1,21JIAOQing-zheng,WEICheng-jian(1.CollegeofInformationScienceandEngineering,NanjingUn
3、iversityofTechnology,Nanjing210009;2.InformationManagementCenter,AnhuiNormalUniversity,Wuhu241000)【Abstract】Thispaperdiscussesatextcategorizationapproachbasedonfeaturesvote,whichislinearaswellashighefficient.Itusesthetrustmechanismtheorytoanalyzethetrust
4、relationbetweenfeaturesanddocumentclasses,andgivesthemodeltocalculatethetrustvalues.Inthecomparisonexperiments,Newsgroup,FudanChineseevaluationdatacollectionandReuters-21578areusedtoevaluatetheeffectivenessofthetechniques.Experimentalresultsshowthemethod
5、canimprovetheperformancefortextcategorization,andissuitableforlarge-scaletextcategorization.【Keywords】textcategorization;featuresvote;empiricalprobability;naturallanguageprocessing1概述越信任,在判别测试文档为i类时,特征对i类的贡献也越大;[1]自动文本分类是一种有监督的学习任务,即根据已分同时,特征信任值与特征平均频率TF
6、=×1/C∑TF呈线性增k类的训练文档集合,对未分类文档分配类标签。近年来,越加的关系,例如,在其他条件同等情况下,假如TFA为10,来越多的统计理论和机器学习方法用于文本自动分类,文TFB为5,那么对特征A比对特征B更信任。当然,这种简献[1-2]对主要分类方法做了详细论述。虽然文本分类方法很单的直觉观存在很大风险,类特征概率是一个归一结果,它多,但传统分类方法并没有在分类性能和分类效率2个层面忽略了特征在各类别之间训练的分布对特征信任值的影响,上取得理想的结果。本文采用一种新的基于特征信任投票的因此
7、,必须对类特征概率的风险进行评估。从类特征概率公文本分类方法,将文本分类理解为测试文档中的特征对文档式可以发现,p(ci)对特征信任值的调节过于平缓,尤其在类类别投票的结果,综合特征对测试文档的投票数(词频)及文别数较多时,分母基数较大,分子间的数量差距不能充分表档类别对特征的信任值,实现线性的文本分类。达,致使测试文档的分类过于依赖特征投票数。另外,当训2特征投票机制分析练文档集合极不均匀时,类特征概率没有同等的比较条件。本文基于特征投票机制文本分类提出如下假设:文本分因此,本文重新构建特征概率模型。
8、类中特征既是文本分类的参与者又是文档类别判定评审专3基于特征投票的分类模型家,分类是根据专家的信用度及在测试文档中的投票数决定为了更好地表达特征在各类别中的分布特征,本文将特测试文档类别。基于此假设,在训练语料时,将参与分类的征概率分为微观经验概率和宏观经验概率,分别定义如下:词汇视为专家特征,根据训练语料考察文档类别对特征的信微观经验概率(mipij):将训练集合中非i类文档数平衡到任值。与i类文档数相同时特征j对i类的概率,计算如下:在
此文档下载收益归作者所有