文档融合关键技术研究

文档融合关键技术研究

ID:35082943

大小:6.95 MB

页数:126页

时间:2019-03-17

文档融合关键技术研究_第1页
文档融合关键技术研究_第2页
文档融合关键技术研究_第3页
文档融合关键技术研究_第4页
文档融合关键技术研究_第5页
资源描述:

《文档融合关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、mnnmim^qWW文档融合关键技术研究ResearchonKeyTechniquesinCross-documentFusion作者姓名:岳琳专业名称:计算机应用技术指导教师:左万利教授学位类别:工学博士论文答辩日期:2016年6月6日授予学位日期:2016年月日论文评阅人:答辩委员会组成:姓名职称工作单位姓名职称工作单位盲审专家正高级国防科学技术大学主席郑斯清教授美国德克萨斯大学盲审专家正高级南京大学达拉斯分校盲审专家正高级同济大学委员周东岱教授东北师范大学房至一教授吉林大学欧阳丹

2、彤教授吉林大学王生生教授吉林大学左万利教授吉林大学未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则,应承担侵权的法律责任。吉林大学博±学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中己经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果

3、。对本文的研究做。出重要贡献的个人和集体,均已在文中明确方式标明本人完全意识到本声明的法律结果由本人承担。石、牛学位论文作者签名:k日期:八!>年bn日提要提要文档融合是组织文本及整合信息的关键技术,也是自然语言生成的重要基础。该技术旨在整合跨多个文档的重要信息,生成简洁流畅的摘要,不同于传统意义上的文摘生成任务,该摘要既要覆盖主题文档集合中的共同信息,也要体现重要的差异性信息,它不仅仅是关键内容的提炼,更强调相关内容的整合。其中,如何获取文档集合中主题概念及这些主题概

4、念所延伸出的主题发展,将整个集合中的关键信息按一定逻辑有条理的排序,基于不同的主题内容对篇章或语句进行聚类组织等都是重要的研究课题。本文主要从三个方面探索文档融合任务涉及的关键技术,具体内容如下:1.文档融合任务整合同一事件或对象的相关信息,以新闻事件为例,不同新闻报道所描述的同一新闻事件,基于不同视角所呈现的信息不同,后续报道中还会出现伴随事件发展而产生的新的相关信息。为有效去除冗余信息,获得主题及主题相关信息,本文提出一个基于模糊多重集理论的对象合并框架,基于合并函数将文档集对应的多重集以及单

5、篇文档中概念对应的模糊多重集合进行合并操作,然后利用有效性评价函数评价并优化合并函数,从而获得关键概念及其相关词。2.文档融合需要逻辑通顺的内容排布,以句子为处理“粒度”,在文档集合中抽取出蕴含关键概念及发展线索的语句,利用排序融合技术对这些句子进行排序,形成逻辑通顺、可读性强的新的篇章结构。本文提出利用主题句子聚类以及图模型对待排序语句进行组合及建模,将语句排序问题转化为连续型Hopfield神经网络所擅长的路径优化问题,在主题簇对应的图中节点间寻找到一条最短路径,最后将路径输出顺序作为最优的排

6、序方案。3.文档融合需要解决基本的主题内容划分问题,由于缺乏领域背景知识,对于特定事件或特定领域的主题聚类仍然存在困难,体现在这类聚类问题中难以有效提取相关特征。本文提出基于领域本体获取领域知识从而指导特征选择,利用向量空间模型对这些特征进行表示,通过矩阵变换得到模糊等价关系矩阵实现聚类。该方法是一种无监督的方法,不需要预先对数据进行人工标注,无需训练过程,因此在组织特殊领域文档时具有较高的灵活性和自动化处理的能力。I摘要摘要文档融合关键技术研究Web在线语料内容丰富且数量庞大,利用常规搜索引擎进

7、行查询,通常只能返回未经整理的分散网页。人工处理这些未经整合的信息碎片工作量巨大,难以高效的获取信息。文档融合的目的是将检索返回的信息进一步归纳整理,即将从多数据源采集到的信息进行分析和综合,将不同数据在时间和空间上的冗余或互补信息依据一定的规则进行组合,从而生成完整、准确、及时和有效的综合信息。自动文档文摘技术作为一项重要的文本处理技术,可以将网页内容整合成较为精炼的文摘形式呈现给用户,可利用该技术将文本内容压缩提炼,从而达到高效的获取信息和知识的目的。文档文摘技术基于反映同一主题的文档集合,自

8、动生成覆盖该集合关键内容的简练无冗余的摘要,其目的是获取同主题多篇文档描述的共性信息。文档融合研究在此基础上产生并发展,基于一个主题文档集合整合信息,利用信息间互补的优势获取更加全面完整可反映事件发展的信息。文摘任务的目的类似于获取信息的交集;而融合的目的在于获取信息的并集。在文档融合技术的研究中,前人已经提出了诸多重要的方法,如在输入集合中,利用主题表示方法获取间接的可描述主题的文档表示;基于所获取的重要主题,输入集合中的相关语句被抽取出来,基于一个评价策略进行排序,从而生成逻辑

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。