基于主题的多文档自动文摘技术..研究与实现

基于主题的多文档自动文摘技术..研究与实现

ID:31985349

大小:1.55 MB

页数:36页

时间:2019-01-30

基于主题的多文档自动文摘技术..研究与实现_第1页
基于主题的多文档自动文摘技术..研究与实现_第2页
基于主题的多文档自动文摘技术..研究与实现_第3页
基于主题的多文档自动文摘技术..研究与实现_第4页
基于主题的多文档自动文摘技术..研究与实现_第5页
资源描述:

《基于主题的多文档自动文摘技术..研究与实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、武汉科技大学硕士学位论文第5页第二章多文档自动文摘简介2.1自动文摘的分类与主要方法上海交通大学的王志琪,王永成教授据自动文摘的特点对其进行划分,主要从文摘处理的文本对象和文摘的制作方法等几个方面进行分类。2.1.1按文摘处理的文本对象分类按文摘处理的文本对象可将文摘分为单文档文摘(SingleDocumentSummarization,SDS)和多文档文摘(MultipleDocumentsSummarization,MDS)tbJ。单文档文摘处理的文本对象是单篇文摘,它对每篇文章独立的生成文摘。多文档集合是指同一主题下不同文档的集合

2、,特点是文档之间具有很多的共同信息,各个文档中包含与主题相关的不同的信息的文档集合。多文档文摘可以将多篇同一主题的文档进行汇总,提供给人们简洁,全面的信息【l31。多文档自动文摘技术是从一个文档集中去除冗余信息,并考虑文档间的相互关联性以及它们各自的差异,从而产生一个浓缩的信息集合【l们。随着网络信息的巨增,返回地址式的搜索引擎的局限性日益突出。这种搜索引擎返回与用户查询内容相关的成百上千个网页地址,而这些网页中与其对应的相关文档的内容有很大的重复性,用户必须一一阅读,以获取所需要的重要信息,这样获取信息的效率很低,而且很不现实。多文档

3、自动文摘技术为用户提供了方便,提高了用户获取信息的速度和效率【l31。可以将多文档文摘技术看作是信息检索的后处理,单文档文摘技术的发展,信息抽取技术的应用【171。此外,在多文档自动文摘中,文档集中的文档可以是同一种语言,也可以是不同的语言,因此多文档文摘中又存在单语种的多文档文摘和跨语种的多文档文摘之分。2.1.2按文摘的制作方法分类按文摘的制作方法可将文摘分为摘录型文摘(SummarizationBasedonExtraction)、基于理解的文摘(SummarizationBasedonUnderstanding)、基于模板的文摘

4、(SummarizationBasedOilTemplate)和基于结构的文摘(SummarizafiOnBasedonDiscourseStructure)【15】。(1)摘录型文摘是从原文档中直接抽取句子,对句子稍加甚至不加修改,该方法先对文本进行主题识别,对文中有用的片段进行有限深度的分析,利用特征词提取相关短语或句子填充文摘框架。自动抽取的基础是将文本看作句子的线性排列,将句子看作词的线性排列。信息抽取技术作为重要的文摘抽取工具也被应用到多文档自动文摘技术中信息抽取步骤是:①计算词的权值;②计算句子的权值;③将句子权值排序,确定

5、阈第6页武汉科技大学硕士学位论文值,高于此阈值的句子作为文摘句:④将这些文摘句按顺序组合输出。在自动摘录中,计算词权、句权、选择文摘句的依据是文本的六种形式特征,即F.词频、T.标题、L.位置、S.句法结构、C.线索词、I.指示性短语【18】。自动摘录依据的是文本形式上的规律,因此它几乎适用于任何文献,具有应用领域不受限制、速度快、摘要长度可调节等优点。这种方法简单快捷、不需要太多的语言学知识、可移植性好,但由于这种文摘是原文部分句子简单组合,因而文摘可读性较差。(2)基于理解的文摘方法是建立在人工智能、自然语言处理的基础上的。需要对文

6、章进行句法分析和语义分析,在理解的基础上产生文摘句【19】。它利用语言学知识对文章进行复杂的语法分析、语义分析和语用分析,利用领域知识进行判断、推理,得到文摘的意义表示最后进行文摘的生成。该方法的步骤是【18,20】:①语法分析。借助词典中的语言学知识对原文中的句子进行语法分析,获得语法结构树。②语义分析。运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基础的语义表示。③语用分析和信息提取。根据知识库中预先存放的领域知识在上下文中进行推理,并将提取出来的关键内容存入一张信息表。④文本生成。将信息表中的内容转换为一段完整连贯的文字

7、输出。这种文摘语句精炼,连贯性好。但是,由于目前在人工智能与自然语言理解方面还存在许多难以解决的问题,这种方法难以得到快速的发展。另外,基于理解的方法是在对原文分析理解的基础上进行的,这种分析理解过程需要占用更多的时间和资源,仅限于非常狭小的应用领域中因此这种方法的效率也比较低下。(3)模版型文摘是通过填充事先由专家定义好的模版来完成文摘生成过程,该方法与信息抽取的过程极为相似。这种方法首先选检索原文,提取出模板需要的文本特征,然后将抽取出来的特征进行规范,最后再将规范后的特征信息填充到模板的相应位置,生成文摘。(4)基于结构的文摘利用

8、文章的结构来分析文章的核心内容,将文章视为句子的关联网络,选择和很多句子都有联系的中心句即可构成文摘。句子间的关系可通过词间关系、连接词确定【211。文章是一个有机的结构体,文章中的不同部分承担着不同的功能

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。