基于引用聚类的多文档自动文摘技术研究

基于引用聚类的多文档自动文摘技术研究

ID:34585521

大小:15.92 MB

页数:166页

时间:2019-03-08

基于引用聚类的多文档自动文摘技术研究_第1页
基于引用聚类的多文档自动文摘技术研究_第2页
基于引用聚类的多文档自动文摘技术研究_第3页
基于引用聚类的多文档自动文摘技术研究_第4页
基于引用聚类的多文档自动文摘技术研究_第5页
资源描述:

《基于引用聚类的多文档自动文摘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号UDC密级——单位代码一lol熨基于引用聚类的多文档自动文摘技术研究张琳指导教师陈燕职称教授学位授予单位大连海事大学申请学位级别博士学科与专业管理科学与工程论文完成日期2013年7月论文答辩日期2013年11月答辩委员会主席CitationClusteringBasedAutomaticMulti-—DocumentSummarizationAthesisSubmittedtoDalianMaritimeUniversityInpartialfulfillmentoftherequirementsfor

2、thedegreeofDoctorofManagementbyZhangLin(ManagementScienceandEngineering)ThesisSupervisor:ProfessorChenYanJuly2013大连海事大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成博士学位论文:基王王!旦鐾耋的垒塞挡自塾塞擅蕉盔硒究:。除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不

3、包含任何未加明确注明的其他个人或集体已经公开发表或未公开发表的成果。本声明的法律责任由本人承担。学位论文作者签名:狱司扯学位论文版权使用授权书本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。同意将本学位论文收录到《中国优秀博硕士学位论文全文数据库》(中国

4、学术期刊(光盘版)电子杂志社)、《中国学位论文全文数据库》(中国科学技术信息研究所)等数据库中,并以电子出版物形式出版发行和提供信息服务。保密的论文在解密后遵守此规定。本学位论文N-T-:保密口在——年解密后适用本授权书。不保密留/(请在以上方框内打t。√,,)论文作者签名:坛谤牡导师签名:彦彖垄日期:如I弓年J/月%日创新点摘要1.根据文献的引用位置与其主题间的相关性特点,提出了一种基于引用位置距离的聚类评价方法,该方法可以对两篇文献是否应该属于同一个类别进行判定,并基于该方法对六种聚类指标的聚类效果进行了

5、评价。2.针对目前信息检索工具仅为用户提供一个简单文档列表来满足他们信息需求、缺少对检索结果合理管理的问题,基于向量空间模型,采用四种文本表示方式、两种文本相似度计算方法来度量文本之间的相似度,通过引用聚类实现了对检索结果的高效管理。3.综合考虑LexRank算法和MMR算法的优点,提出了一种新的多文档文摘方法LexRankMMR,该方法在进行句子重要性衡量时,同时考虑句子的权威性、与查询的相关性以及与已有文摘句的冗余性等因素,并通过实验将该方法与其它多文档文摘方法基于不同候选句子集生成的文摘进行比较,证明了

6、该方法的可行性。中文摘要摘要互联网的普及带来了网络电子期刊文献的剧增,这给研究人员(尤其是初级研究人员)高效准确地从海量信息中挖掘所需要的信息带来了巨大挑战。因此,如何对领域知识进行自动概括以提高研究人员获取信息的效率变得日益重要。多文档自动文摘是自然语言处理中的一个重要研究课题,它可以实现对同一主题的多篇文献的汇总和压缩,通过提供一个简洁、全面的文摘,来减少研究人员阅读文献的时间并避免信息超载的发生。为了对研究人员所关心领域的相关文献进行概述,本文在现有的多文档文摘技术的基础之上,研究了基于引用聚类的多文档

7、自动文摘技术,着重在引用聚类和文摘生成的研究。在引用聚类部分,基于向量空间模型,通过采用不同的文本表示方式和文本相似度计算方法,得到了引用聚类的六种聚类指标,即文献摘要相似性指标、基于查询的文献摘要相似性指标、文献引用上下文相似性指标、基于查询的文献引用上下文相似性指标、文献共引互信息指标以及文献共引位置临近性得分指标。在此基础上,根据文献的引用位置与其主题间的相关性特点,提出了一种基于引用位置距离的聚类评价方法,并基于该方法对六种聚类指标的聚类效果进行了比J.上牧。引用聚类的目的是为了对与研究人员信息需求相

8、关的多篇文献按照主题的相似程度进行分组管理,为之后的研究做铺垫。在文摘生成部分,为了对主题簇中多篇文献的主要内容进行浓缩、提炼,采用不同的多文档文摘技术(LexRank、QuerySensitiveLexRank、MMR以及LexRankMMR),根据句子的重要程度,从每个簇的候选句子集中抽取重要性高的句子生成不同长度的段落以对每个簇中的多篇文献进行概括描述。之后通过实验对生成段落的质量以及由生成段

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。