信息检索课件-精简版-自动文摘

信息检索课件-精简版-自动文摘

ID:22033686

大小:872.00 KB

页数:18页

时间:2018-10-21

信息检索课件-精简版-自动文摘_第1页
信息检索课件-精简版-自动文摘_第2页
信息检索课件-精简版-自动文摘_第3页
信息检索课件-精简版-自动文摘_第4页
信息检索课件-精简版-自动文摘_第5页
资源描述:

《信息检索课件-精简版-自动文摘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、文摘的定义中华人民共和国国家标准《文摘编写规则》(GB6447-86)“以提供文献内容梗概为目的,不加评论和补充解释、简明、确切地记述文献重要内容的短文。”美国国家标准学会(ANSI)《文摘编写标准》“某一文献内容的简要而准确的表达,不加解释和评论,也不区分这篇文献是由谁写的。”国际标准《文献工作——出版物的文摘和文献工作》(ISO214-1976(E))“一份文献内容的缩短的精确的表达而无须补充解释或评论,且对写文摘的人来说没有差别。”文摘的特点简洁性文摘比所摘的文献短长度为原文献的5%~10%的文摘就能基本上反映文献的主要内容;当文摘的长度

2、达到原文献的10%~25%时,很多文章的写作风格就可以在文摘中体现出来了。准确性无论长短,文摘必须准确无误地报道原文献的基本内容不能主观改变原文观点科技文献的文摘应确保正确引用原文中的各项数据。清晰性必须使用一种易读的文体把文献内容清晰地表示出来最好用完整的句子编写文摘尽可能使用著者自己使用的词语。文摘的功能促进新资料的快速通报节省阅读时间有助于克服语言障碍有利于文献检索……1:按文摘面向的用户划分通用文摘偏重文摘通用文摘和偏重文摘的区别在于是否考虑了用户的兴趣。通用型文摘就是面向所有用户的、文摘内容不带有任何侧重的、全面反映原文内容的文摘。对

3、于一篇长的文章,如果用户只关心某一方面(例如工业),这就涉及到了偏重问题。1:按文摘面向的用户划分偏重文摘也称为用户聚焦文摘、主题聚焦文摘或查询聚焦文摘。根据需要或者用户的兴趣提供相应的有侧重点的文摘。偏重文摘的结果不仅仅决定于原文的主题也决定于用户的个性化要求它能够把焦点放在用户关心的部分而不是把原文的每个部分平等对待2:按文摘处理的文本对象划分单文档文摘多文档文摘单文档文摘处理的文本对象是单篇文摘它对每篇文章独立的生成文摘。处理文档集合时会有什么问题?2:按文摘处理的文本对象划分处理文档集合时会有什么问题?内容重复多文档文摘就是从一个文档集

4、中去除冗余考虑文档相互的关联性及各自的差异产生一个浓缩的信息集。2:按文摘处理的文本对象划分多文档文摘实际上是对单文档文摘的一个扩展它与单文档相比较需要一些新的技术和方法来处理它主要考虑以下几个方面的问题需要一个高效地去除冗余的方法。系列文档可能包含时间及空间的变化。文摘结果压缩比很大,通常1%~10%,而单文档可以在30%左右。发生在不同文档中的事件及实体,它们的关联、融合处理是一个难题。基于统计的自动文摘基于统计的自动文摘将文本视为句子的线性序列将句子视为词的线性序列它通常分4步进行:计算词的权值计算句子的权值对原文中的所有句子按权值高低降

5、序排列,权值最高的若干句子被确定为文摘句将所有文摘句按照它们在原文中的出现顺序输出权重计算依据词频标题位置句法结构特殊词……基于统计的自动文摘的优点基于统计的自动文摘所依据的是文本形式上的规律总的来说,任何一篇文章都不同程度地符合这些规律因此基于统计的自动文摘能够适用于非受限领域这是它突出的优点基于统计的自动文摘的不足然而,一篇文章常常在某些形式特征上符合常规而在另一些形式特征上违反常规摘录的结果能否抓住原文的中心内容要看文章在多大程度上符合常规因此,基于统计的自动文摘的质量很不稳定。基于统计的自动文摘的不足当加权函数调整时又总是顾此失彼对这一

6、类文章的效果好了对另一类文章的效果又差了基于统计的自动文摘的不足不全面对于多主题的文献不简洁重复文章的中心内容不连贯省略、指代、逻辑次序基本步骤语法分析借助词典中的语言学知识对原文中的句子进行语法分析,获得语法结构语义分析运用知识库中的语义知识将语法结构描述转换成以逻辑和意义为基础的语义表示。语用分析和信息提取根据知识库中预先存放的领域知识在上下文中进行推理,并将提取出来的关键内容存入一张信息表。文本生成将信息表中的内容转换为一段完整连贯的文字输出。语法语义分析技术不成熟面向大规模真实语料的语法语义分析技术尚未完全成熟因此如果想获得高质量的语言

7、分析结果,就必须将待处理的语料限制在某个范围之内。知识表示难以移植理解文摘方法的基础是框架等知识表示框架需要根据领域知识预先拟定因此如果想把适用于某个领域的理解文摘系统推广到另一领域,则需重新拟定框架这种填充和组织领域知识的沉重负担使理解文摘难以移植理解文摘的不足理解文摘的不足在于领域严格受限造成领域受限的原因在于:语法语义分析技术不成熟知识表示难以移植怎么办?一步一步来

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。