欢迎来到天天文库
浏览记录
ID:35133773
大小:2.12 MB
页数:54页
时间:2019-03-19
《探究利用非广延最大熵模型进行文本分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、天津大学硕士学位论文利用非广延最大熵模型进行文本分类姓名:付琳申请学位级别:硕士专业:计算机应用技术指导教师:侯越先20090501摘要在线资源的迅速增长、互联网信息量的急剧增加使得人们从信息匮乏的时代过渡到了信息极为丰富的时代。面对日益膨胀的、异构的信息资源,如何快速、准确地从海量信息中寻找到所需的相关内容变得十分棘手。因此,研究利用计算机进行自动文本分类成为自然语言处理和人工智能领域中一项具有重要应用价值的课题。目前文本分类领域中已经存在多种具有良好分类效果的理论技术,本文主要介绍如何利用非广延熵模型进行文本分类。非广延熵模
2、型建立在最大熵模型的基础上,最大熵模型是一项概率分布估计技术,它的基本思想是拟合所有己知事实,保持未知事件的未知状态,已被广泛应用于语言建模、词性标注、文本分割等自然语言处理领域。本文在最大熵模型的基础上提出了两个用于文本分类的扩展模型。第一个模型利用非广延熵代替香农熵作为最大熵模型中的目标函数,以期简化分类器的表达形式,称之为非广延熵模型;第二个模型在非广延熵模型的基础上引入实体间的高阶约束,试图通过增加文本中单词间的共现关系约束提高文本分类的正确率,称为带有高阶约束的非广延熵模型。成功建模后利用拉格朗日乘子法求解模型,得到分
3、类器的表达形式并进行参数估计,最终得到文本分类器。本文选用20作为语料库进行文本分类,并进行了两组分类器性.Newsgroups能评价对比实验。第一组对比实验比较基于本文提出的两个扩展模型的文本分类器,实验结果表明在非广延熵模型中添加高阶约束后文本分类的正确率有一定程度的提高;第二组对比实验比较两个非广延熵模型和最大熵模型,实验结果表明本文提出的两个扩展模型均具有更高的分类正确率。以上两组对比实验证实了非广延熵模型和带有高阶约束的非广延熵模型的有效性。关键词:非广延熵高阶约束文本分类ABSTRACTWiththerapiddev
4、elopmentofonlineresources,therearemoreandmoreinformationonthewebsite.Consequentially,autoclassificationtechniquesarerequiredtodiscriminateusefulinformationagainstredundanturgently.Fortextclassification,thereareavarietyofmaturetechniqueswhichhavebeendemonstratedreason
5、ableperformances.Thispaperproposestheuseofnon—extensiveentropyfortextclassification.Non—extensiveentropytechniqueisbasedontheprincipleofmaximumentropy.Maximumentropyisaprobabilitydistributionestimationtechniquewidelyusedfornaturallanguagetasks,suchaslanguagemodeling,
6、part-of-speechtaggingandtextsegmentation.Theunderlyingprincipleofmaximumentropyisthatwithoutexternalknowledge,oneshouldpreferdistributionsthatareuniform..ThisPaperproposestwonon—extensivemodelsfortextclassification.ThefirstmodelextendsShannonentropyintonon·extensivee
7、ntropytosimplifytheformofclassifier;theotheroneintroduceshigh-levelconstraintsintonon-extensivemodeltoimposeconstraintsonthepairsofentities.Modelwithhigh-levelconstraintsconstructsrelationsbetweenwordpairswhichbuildssemanticconstraints,forthesakeofadvancingaccuracyof
8、textclassification.Thenon—extensiveentropyformulationhasauniquesolutionwhichcanbefoundbyLagrangemultipliermethod.他paperselects20_Ne
此文档下载收益归作者所有