自动文摘技术综述 黄佳佳.doc

自动文摘技术综述 黄佳佳.doc

ID:55694538

大小:52.50 KB

页数:4页

时间:2020-05-25

自动文摘技术综述 黄佳佳.doc_第1页
自动文摘技术综述 黄佳佳.doc_第2页
自动文摘技术综述 黄佳佳.doc_第3页
自动文摘技术综述 黄佳佳.doc_第4页
资源描述:

《自动文摘技术综述 黄佳佳.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、自动文摘技术综述黄佳佳摘要自动摘要是自然语言处理领域的一个研究重点,自动摘要的研究和应用受到了计算机科学,语言学,心理学等相关学科的广泛关注。我在阅读多篇关于自动摘要技术的文献后,在本文中浅谈了有关自动摘要技术的研究意义,重点介绍了几种主要的自动文摘的方法,并论述了当前自动文摘技术发展所存在的问题。关键字自动文摘自动摘要0.背景及意义随着计算机技术和互联网技术的口益普及,网络己口益成为人们发布消息,获取信息的主要手段。大量的电子资源在网络里流通,使人们可以轻松的在网络中获取所需资源,并渐渐依赖于网络找寻所需的资源。然而在面对随手可得而乂如

2、此庞大的资源,人们却无法快速有效的获得自己真正需要的资源。分析其原因,是因为互联网中的资源实在太多,信息量太大,人们无法再众多的数据中搜寻到所要的信息。于是人们开始借助搜索引擎依据搜索条件从数据裤子筛选出与检索条件相关的资源。但是如何使用户在最短时间内获取资源内容呢?一•个简单有效的办法就是列出资源的摘要。但是网络中绝大多数资源并没有列出摘要,这就迫使人们提出一•种自动提取资源主要内容的方法——自动摘要技术。什么是摘要?我认为摘要就是对文档的中心题和(或)每-•个分主题所叙述的内容精简而形成的短文。而所谓的自动摘要就是利用计算机自动地从原

3、始文献中提取文摘。由此可见,研究自动摘要技术具有重大意义:第一,它可以提高文摘杂志的实效;第二,更重要的是,当今电子出版物如潮而至,大量的文献以机读的形式出现,网上的信息极大地丰富。要想在信息的海洋中找到所需信息,不仅需要先进的检索系统,还应该拥有一•个能自动压缩信息甚至自动提炼信息的智能系统。第三,这也是快速阅读的需求。i个好的自动文摘系统可以为读者提供文献的精华与概要。一-自动文摘的方法1.1研究历史自动摘要研究始于1958年,由美国IBM公司的Luhn开创

4、H动摘要的先河。接着,美国马里兰州大学的Edmundson,美国俄亥俄州立大

5、学的Rush,英国Lanester大学的Paice等选取字词的不同特征作为提取摘要的关键。这一阶段人们只是围绕文章字词层面进行特征提取,只是简单的依赖粗糙的统计数据和不同性质的特征的简单线性叠加。随后,人们开始考虑文档的句法特征和语义特征。建立起以人工智能特别是计算语言学为基础的方法。美国耶鲁大学的Schank,意大利Udine大学的Fum等,美国GE研究开发中心的Rau等分别应用脚本分析,一阶谓词逻辑和框架等表示文档的结构和意义,从而分析和推理得到文档的摘要。2.2儿种主要的自动文摘方法•自动摘录这种方法的基础是将文本看做是句子的线性排

6、列,将句子看做词的线性排列。步骤是:(1)计算词的权值,(2)计算句子的权值,(3)将句子权值排序,确定阙值,高于此阙值的句子作为文摘句,(4)将这些文摘句按原顺序组合输出。这种方法是基于字词特征的方法,字词的特征包括词频,标题,主题词,线索词,与主题词的相似度,词频等。值得一提的是,特殊的文档格式对文档的内容能起到特殊的提示作用,可以将其作为特征。例如,HTML网页中很多标记对文档的内容有相当丰富的提示。•理解文摘这种方法利用语言学知识获取语言结构,更重要的是利用领域知识进行判断,推理,得到文摘的意义表示,最后从意义表示中生成摘要。步骤

7、是:(1)语法分析:借助词典中的语言知识对原文中的句子进行语法分析,获得语法结构树。(2)语义分析:运用知识库中的语义知识将语法结构描述转换成以逻辑和意义基础的语义表示。(3)语用分析和信息提取:根据知识库中预先存放的领域知识在上下文中进行推理,并将提取出来的关键内容存入一•张信息表。(4)文本生成:将信息表中的内容转换为一段完整连贯的文字输出。•信息抽取信息抽取的方法先对文本进行主题识别,再选择已编好的该领域的文摘框架,对文中有用的片段进行有深度的分析,提取相关短语或句子填充文摘框架,再利用文摘模板将文摘框架中的内容转化为文摘输出。信息

8、抽取只对有用的文本片段进行有限深度的分析,其效率和灵活性显著提高。例如,针对地震报道的文章可以提出如下的框架:地震{地震震源:震级:受震范围:伤员情况:・・・・}在选择阶段,利用特征词从文本中抽取相关的短语或句子填充文摘框架。在生成阶段,利用文摘模板将文摘框架中的内容转换为文摘输出。文摘模板是带有空白部分的现成的套话,其空白部分与文摘框架中的空槽相对应。•基于结构的自动文摘将文章视为句子的关联网络,选择和很多句子都有联系的中心句即可构成文摘。句子间的关系可通过词间关系,连接词等确定。对于篇幅较长的文章,句子之间的关联网络要小的多。另外,和

9、由句子组装起来的文摘相比,由段落拼接起来的文摘连贯性显著提高。和用其它方法生成的文摘相比,根据语用功能提炼出来的文摘更符合科技文献编写的标准。但是如果想把这种方法推广到科技文献以外的文本中去,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。