基于LDA和TextRank相结合的中文多文档自动摘要提取

基于LDA和TextRank相结合的中文多文档自动摘要提取

ID:17930301

大小:1.83 MB

页数:49页

时间:2018-09-10

基于LDA和TextRank相结合的中文多文档自动摘要提取_第1页
基于LDA和TextRank相结合的中文多文档自动摘要提取_第2页
基于LDA和TextRank相结合的中文多文档自动摘要提取_第3页
基于LDA和TextRank相结合的中文多文档自动摘要提取_第4页
基于LDA和TextRank相结合的中文多文档自动摘要提取_第5页
资源描述:

《基于LDA和TextRank相结合的中文多文档自动摘要提取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代码:10135论文分类号:TP31学号:20154019005研究生类别:全日制硕士学位论文基于LDA和TextRank相结合的中文多文档自动摘要提取ChineseMulti-documentAutomaticSummarizationExtractionBasedontheCombinationofLDAandTextRank学科门类:工学一级学科:计算机科学与技术学科、专业:计算机应用技术研究方向:自然语言处理申请人姓名:张波飞指导教师姓名:李成城二〇一八年四月八日内蒙古硕士学位论文内蒙古师范大

2、学硕士学位论文中文摘要新闻已经成为日常生活中获取消息的一种有效途径,用户主要通过搜索引擎获取新闻。网络为人们提供丰富信息资源的同时,也伴随着大量冗余信息的出现,获取信息这一过程必然会浪费大量不必要的时间。多文档自动摘要技术的出现很好地解决了这一问题,利用机器学习、神经网络等技术获取主要的信息,对文档进行摘要提取,最终得到可以诠释文档主要内容的简短摘要以实现对文档有用信息的精确提取。这种技术可以方便用户及时有效的获取有用信息,抽取到新闻中的关键部分,极大地提高了效率。目前比较常用的摘要提取技术基于抽取式的方

3、法即在原文文档中抽取关键句作为文本的摘要句。在此基础上,本文针对如何在摘要提取过程中选择一种能够准确为句子打分的方法这一关键问题,提出了将潜在狄利克雷分布(LatentDirichletAllocation,LDA)主题模型与TextRank(图模型)算法相结合的一种算法。首先,通过对预处理后的新闻文档集建立LDA主题模型得到相应的主题词概率分布,并对每一个句子所包含词项的概率求和得到句子的概率模型;其次,将预处理后的句子作为TextRank的输入,完成对文档的TextRank图模型构建,同时在计算图节点

4、的最终权重时以LDA主题模型得到的主题概率为依据,其中,概率大的句子优先计算其节点权重,于是得到了更准确的句子排序;最后,分别根据压缩比例10%和20%抽取排序靠前的句子作为摘要句。利用上述方法,本文通过对同一主题下的新闻语料进行摘要提取,得到该主题下的概括性摘要。最终利用ROUGR-1、ROUGE-2、P、R、F这5个指标对得到的结果进行性能评价,实验表明该方法与单一算法相比,所生成的摘要效果更好,结果准确率明显提高,同时具有主题明显、关键词突出等优点。关键词:多文档自动摘要,LDA主题模型,TextR

5、ank算法,摘要评价内蒙古师范大学硕士学位论文ABSTRACTIthasbecomeaneffectivewaytogetnewsforusersineverydaylife.Usersmainlyobtainnewsthroughsearchengines.Whilethenetworkprovidespeoplewithabundantinformationresources,itisaccompaniedbytheemergenceofalargeamountofredundantinformati

6、on.Theprocessofobtaininginformationwillinevitablywastealotofunnecessarytime.Theemergenceofmulti-documentautomaticsummarizationtechnologysolvestheproblemwell.Itusesmachinelearning,neuralnetworkandothertechnologiestoobtainthemaininformationandabstractthedoc

7、uments.Finally,wecangetshortabstractsthatcaninterpretthemaincontentsofdocuments,soastoachieveaccurateextractionofusefulinformationfromdocuments.Thistechnologycanfacilitateuserstoobtainusefulinformationinatimelyandeffectivemannerandextractkeypartsofthenews

8、,greatlyimprovingefficiency.Atpresent,thecommonlyusedabstractextractiontechnologyisbasedonanextractivemethodthatextractskeysentencesastextabstractintheoriginaldocument.Basedonthismethod,thepaperproposesthecombinatio

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。