基于主题模型中英文多文档自动文摘

基于主题模型中英文多文档自动文摘

ID:32794045

大小:2.67 MB

页数:62页

时间:2019-02-15

基于主题模型中英文多文档自动文摘_第1页
基于主题模型中英文多文档自动文摘_第2页
基于主题模型中英文多文档自动文摘_第3页
基于主题模型中英文多文档自动文摘_第4页
基于主题模型中英文多文档自动文摘_第5页
资源描述:

《基于主题模型中英文多文档自动文摘》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摹于主题模型的中英文多文档自动文摘中文摘要基于主题模型的中英文多文档自动文摘中文摘要随着计算机技术和互联网的迅速发展,各种信息呈爆炸式增长,人们对信息精确定位的需求促进了自然语言处理技术的研究。同时,随着人们对跨文本信息融合的分析,多文档自动文摘成为研究者们关注的热门话题,多文档自动文摘在问答系统、搜索引擎和话题检测等诸多应用中都有涉及。本文深入分析了现有的多文档自动文摘技术,将主题模型应用到关键句检测中,并使用动态模型进行冗余控制,在此基础上实现了一个基于主题模型的多文档自动文摘系统。实验结果表明,本文给出的系统在TAC2008和TAC2009自动文摘评测中使用

2、Rouge评测,取得了良好的性能。‘本文主要针对多文档自动文摘中的两个关键部分:关键句检测和冗余度控制进行了详细分析。在关键句检测方面,本文构建了基于主题模型的句子主题特征,实验证明句子主题特征能够在多文档自动文摘中起了很大作用,将主题特征与其他特征组合构成的特征向量也能很好地提高系统的性能。在冗余控制方面,本文将动态模型引入到句子抽取模块,并在此基础上设计了针对更新摘要的动态模型,使用该动态模型生成的更新摘要能有效地避免历史信息的冗余。在TAC2008语料上的实验表明,本文的关键句检测与冗余控制相结合后,取得了很好的系统性能,特别是在更新摘要任务中,结果高于参赛

3、系统中的最好结果。最后本文将提出的两个关键技术应用于中文语料上,实验结果表明主题模型同样有助于中文语料多文档中旬子重要度的检测,动态模型对中文多文档同样可以有效地控制冗余。但英文处理的效果明显优于中文,原因是中文语料需要经过特殊预处理,进而影响了后继的性能。关键词:主题模型;多文档自动文摘;LDA;自然语言处理作者:张明慧指导教师:周国栋王红玲AbstractChineseandEnglishAutomaticSummarizationBasedOilTopicModelingChineseandEnglishAutomaticSummarizationBased

4、onTopicModelingWiththerapiddevelopmentofthecomputertechnologyandtheInternet,variousinformationisincreasingexplosively;people’Sdemandforpreciselylocatinginformationgiveastrongimpetustotheresearchinthenaturallanguageprocessingtechnology(NLP).Meanwhile,astheprogressivelyresearchoncross—d

5、ocumentinformationfusiontechnologies,multi-documentsummarizationbecomeahotresearchsubject,multi·documentsummarizationcanbeusedinquestionanswering,searchengines,topicdetectionandotherapplications.Inthispaper,weanalysistheexistingmethodsonautomaticmulti-documentsummarizationdeeply,andap

6、plyatopicmodeltothesentencesilencedetection.Inaddition,weuseadynamicmodeltocontrolredundancy.Atlast,weimplementanautomaticmulti·documentsummarizationsystembasedonthosemethods.ExperimentalresultsonTAC2008andTAC2009corpusshowthatthesystemhasagoodRougeperformance.Thispapermainlyanalysist

7、hemosttwokeymulti·documentsummarizationtechnologies:Sentencesaliencedeterminationandredundancycontr01.Intermsofsentencesaliencedetermination,weproposeasentencetopicfeaturebasedontopicmodeling.TheresultsshowthatthetopicsfeatureplaysasignificantroleintheMDS.Andthecombinationoftopicfeatu

8、reand

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。