资源描述:
《一个基于最大熵模型的文本分类方法_李军辉》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、一个基于最大嫡模型的文本分类方法李军辉朱巧明李培峰,苏州大学计算机科学与技术学院苏州2巧06:本文提出了一种应用最大嫡模型进行中文文本分类的方法,该方法重点在于特征摘要函数的构建和文本的预处理这两个方面.本文把文档的预处理分为网页去标记、分词、去虚词和去停用词四个步骤,从而使得特征项的提取更加合理。另外,本文提出了一种基于特征模板的方法,并将其与特征项的权重相结合的特征,。,函数构建方法提高了分类器的分类精度实验结果发现基于特征模板和权重相结合的最大嫡模型的微平均准确率达到9,。.667%分类效果要好于荃于词频的最大嫡模型:::::关键词文本分类最大墒模型文本
2、预处理特征模板特征函数APProachtoChinesextCategorizationeTBasedonMaximumEntroPyModelLiJunhuiZhuQiaomingLiPeifengehoooomPutereeneeanenoogy,uzounversty,uzhouSlfCSideThlShUiiS215006stract:ntsPae,rwerooseanearoaetoaoetonesetextteozaton,AbIhiPPPwPPhPPlyMEmdlChicagirianditsmainPointsineludeeonstituti
3、ngfeaturefunerionsandPre一disPosingdoeuments.Eaehdocumenr15uneoneursrePs,nameremovnta,woseentaton,enemPtywordsandremovndgroflyightmlgsdrgmiifltirgig.stoors,norertomaeteatureemsmorereasonaen,ature一eate5routPwdidkhfeitblIadditionfetmPl1bghfoard,whieh15eombinedwiaturee’5weeeonstutnature
4、nctions.eresultsowrthfeitmightwhilirigfefuhTf·exPerimentsshowthatthemieoraveragePreeisionwithMEmodelbasedupontheeombinationofature一temPlareane5uo,anditseraneeouterstatwithoeasedfedwight1Pt9667%PfomrPformhMEmdlb-一uPonwordfrequeney:;纂金资助匡苏省自然科学基金(B2K03030)江苏省高技术研究项目(BGZo502田一:一.。一,,,,
5、,’1卞名简介李军辉(1983)男江西崇仁人在读硕士研究生Emai:jhli@zhhzo啥二长巧付j(2963),。·,,,。男教授李培峰(1971)男吕!1教授博卜172Kywords:xtatgorization:MEModl:xtPrtrarmnt:FaturmPlat;aturFuntionF引言1,。随着人类进入信息社会以及Intrnt的迅猛发展人们可以获得的信息越来越多,。如何快速有效地利用网络信息己经成为现代信息技术的研究热点文本分类就是一种帮助人们从浩如烟海的信息中获取有效信息的一种方便途径。文本分类是指在给定分类,。体系下根据文本的内容自动确
6、定文本类别的过程,、,在统计学中的最大嫡模型由于它的简洁通用和易于移植已广泛地应用于自然,、、。语言处理其中包括词语切分词性标注组块分析和机器翻译等【文献21首次将最大,,嫡模型应用于英文文本分类【文献3和4J将最大嫡模型应用于中文文本分类两者都是仅将词频作为特征值,分类的微平均准确率最高为92.73%闪。本文将最大嫡模型应用于,,中文文本分类时首先利用分词等方法进行文本的预处理然后提出了一种将特征模板,.与词权重相结合的特征函数生成方法最后利用最大嫡模型对文本进行分类实验结果,,表明基于特征模板和权重相结合的最大墒模型分类的微平均准确率达到%.67%效果要好
7、于基于词频的最大嫡模型,且两者都要好于朴素贝叶斯模型。2最大嫡模型最大嫡模型是一个比较成熟的统计模型,适合于解决分类问题。其基本思想是,给定一己知事件集,在己知事件集上挖掘出潜在的约束条件,然后选择一种模型,这个模型必须满足已知的约束条件,同时对未知事件,尽可能使其分布均匀。,。在进行文本分类时以每一篇文本作为一个事件假设有一个事件样本集合为.,,1,c,JZ,cZJ3,c3…,,,。、d,``。,``工(工(),(d(1,、)表示某一具体文本(1,、)d{()}表示该文本被分类的结果。利用最大嫡模型得出在特征限制条件下具有最优的概率分布,即。,:概率值pc(
8、}d)根据最大墒原理概率值pc(}d)