基于textrank算法的单文档自动文摘研究

基于textrank算法的单文档自动文摘研究

ID:35058859

大小:6.01 MB

页数:80页

时间:2019-03-17

基于textrank算法的单文档自动文摘研究_第1页
基于textrank算法的单文档自动文摘研究_第2页
基于textrank算法的单文档自动文摘研究_第3页
基于textrank算法的单文档自动文摘研究_第4页
基于textrank算法的单文档自动文摘研究_第5页
资源描述:

《基于textrank算法的单文档自动文摘研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、'—歲蠻备若J乂#研究生毕业论文(申请硕去学位)论文题目基于TextRank算法的单文桓自动文摘研究__作者挂名堂连学科专业若称‘话报学研究方向信息检索指导教师成巧教巧二〇—六年五月学号:MG131401I论文答辩日期;2015年5月28日指导教师:(签字)SinledocumentautomaticsummarizationbasedongTextRankalorithmgByCaoYangAThesisSubmitedtoNanjingUnivers

2、ity’For也eMastersdegreeSchoolofInformationManagementNaninUniversitjgyMa2016y??-*.;巧京大学学位论文原创椎声明本人郑重声明:所呈交的学位论文是本人在导师指导下独立进行的研巧工作所取得的成果。尽我所知,除了文中特别加W标注引用的内容外,论文中不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文的研巧做出重要贡献的个人和集体,均已在文中作了明确的说明并表示了谢意。口i.研究生签名日期.:k户2^南京大学学位论文使用授巧声明本

3、学位论文作者同意学校保留并向国家有关部n或机构送交学位论文的复印件和电子文档,可W采用影印、缩印或扫描等复制手段保存论文。本人电子一文档的内容和纸质论文的内容相致。除在保密期内的保密论文外,允许论文被查阅和借阅,可;^公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权南京大学研究生院办理。研巧生签名:导师签名:日期心J、2^中文摘要南京大学研究生毕业论文中文摘要首页用纸目:基于TextRank算法的单文档自动文摘研究毕业论文题情报学专业2013级硕去生姓名:曹洋指导教师(姓名、职称):成颖教授摘要

4、信息时代的来临引发了文献的指数级增长,信息用户迅速由信息贫乏过渡到。1958信息过载,传统手工文摘速度己经远远落后于用户的需要起于年的自动一直是信息自动处理领域的热点文摘研究。其中,基于图的自动文摘主要利用文一本中的词汇或者语义信息构建拓扑结构图,TextRank是其代表性的算法之。借鉴了PageRank的算法思想,TextRank算法将文档划分为由若干文本单元(词项或者句子)构成的节点,,文本单元间的相似度构成节点间的边,形成图模型利用PageRank算法对图模型进行迭代直至收敛,然后对所有节点进行排序,输出ex一关键词或文摘句。TtRank算法

5、作为种无监督方法,无需训练语料,可W运用在多种不同的领域。本文对TextRank算法自动文摘过程中的句子相似度、句子一。权重计算等部分进行了改进,提出了种面向英文语料的单文档自动文摘方法本文的研巧工作包括W下几个方面:(1)研究问题。对基于Text民ank算法自动文摘的主要步骤进斤了梳理与分析,发现预处理W及迭代计算部分已经较为成熟,改进空间有限,而句子相似度及句子权重计算则尚有较大的提升空间。(2)句子相似度。本文比较了基于编辑距离、WordNet语义词典、BM25W及经典TextRank的相似度算法;分析发现基于BM25相似度计算方法的自动

6、文摘效果最优,同时也发现BM25计算公式中的IDF(Si)部分,当n(如大于N/2时,瓜F取负值一M25的改,从而得到个取负值的权重。对化本文提出了两种B(如一-进思路,其是采用经典TFIDF计算公式中的IDF计算部分替换BM25原有的一IDFS计算公式,并对经典IDF计算公式的分母采用拉普拉斯加1平滑;另(f)则是对BM25原有的IDF(Si肿算公式,当n(S£)小于等于N/2时,公式不变,IDFS,avgWF。,a向,当n(于N/2时用or替换原来的公式其中是)取正值f巧I中文摘要调节参数(0^封),awWF是所有词项的平均IDF值

7、。(3)句子权重。经典TextRank方法考虑了句子的全局信息,但是忽视了句子本身的特征。对此,提出了将句子位置、线索词与经典TextRank加整合的句子权重计算方案。(4)文摘实验。语料库为DUC2002,具体的工作包括:语料的预处理(分句。、分词、词性标注、词项过滤);句子相似性计算;句子权重计算;文摘生成(5)文摘评价。评价方法采用ROUGE,主要考查了面对不同文摘抽取任务时的表现(100个单词、压缩10%、压缩20%)。实验表明,在民OUGE的各项指标

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。