web新闻自动摘要方法研究

web新闻自动摘要方法研究

ID:22311241

大小:54.00 KB

页数:7页

时间:2018-10-28

web新闻自动摘要方法研究_第1页
web新闻自动摘要方法研究_第2页
web新闻自动摘要方法研究_第3页
web新闻自动摘要方法研究_第4页
web新闻自动摘要方法研究_第5页
资源描述:

《web新闻自动摘要方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、Web新闻自动摘要方法研究第1章引言1.1研究背景与意义信息交流的传统方法是通过报纸,我们首先看到的是新闻的标题或者是摘要,这样就可以快速过滤掉不需要的内容,筛选出感兴趣且有用的新闻信息。Inter的蓬勃发展,从第35次中国互联网络发展统计报告得知,截止2014年12月,中国万维网网页数量已经增加到1899亿[1],网络已经成为用户获取和交换信息的主要途径。越来越多的可用在线图书馆,使得网络中可获得的资源量呈指数级别增长,这些信息包含技术、商业、新闻、娱乐等方面,导致了信息爆炸的产生,其巨大的信息资源量也吸引了更多的用户。中信息的

2、整理和分类比较匮乏,人们无法从信息的海洋中最快最大限度地获取自己需要的信息,信息的检索变得尤为艰难。因此如何为用户提供便捷、高效的服务,已成现今信息时代急需解决的重要问题。目前,Inter信息检索主要是通过使用不同种类的搜索引擎,当用户输入搜索关键字或者是词语、句子时,搜索引擎就会从Inter中筛选与检索条件相关的信息并将结果以标题列表的形式反馈给用户,这种方法在某种程度上减小了信息检索的压力。但这种方法提供给用户的结果不够简洁、直接,有时一个检索关键字可能会有上千条反馈信息,用户需要花大量的时间去逐一浏览各个信息,以求得到最佳答

3、案,降低了获取信息的效率。如果能通过网页自动摘要技术将较长的新闻正文压缩成较短且能体现文本主要内容的摘要,就可以帮助用户在短时间内就了解网页内容,继而判断是否有必要继续浏览此网页,减少了获取信息所需要花费的时间。根据国际标准(IS0214-1976(E))的定义,摘要是指文献内容的缩短的精确的表达且不需要添加任何补充、解释或者是评论,摘要内容的编写对写文摘的人没有区别。摘要是对文献的高度概括,表明了文献的主要内容,它比标题更有代表性[2]。搜索引擎如能在检索的时候参考摘要,则可在很大程度上提高检索速度。信息资源的发布者通常不会提供

4、文本摘要,海量的信息若使用人工方法提取摘要,则需要花费巨大的人力和时间。自动摘要[3]是使用计算机程序自动提取摘要,解决了摘要提取困难的问题。可见,对自动摘要方法的研究具有非常重要的现实意义。1.2研究历史与现状对自动摘要技术的研究自提出到现在取得了很大的进步,它在人工智能、情报和语言学等各个领域都有了广泛的应用。自动摘要技术最早是由IBM公司的Luhn于1958年在其发表的一篇名为TheAutomaticCreationofLiteratureAbstracts的论文中提出,他的研究宣布了自动摘要的诞生,此后便吸引了国内外众多学

5、者投入了对该项技术的研究。Luhn[4]认为句子是文本主题的表达形式,不同句子包含的词语不同,对主题表达的意义也不同,提取摘要的目的就是选出文中比较重要的句子。摘要候选句的提取是基于句子中所含有词语对文本主题表达的重要性。在他的论文中,词语被划分成功能词和内容词两大类,连词、介词、副词、形容词等被定义为功能词,除此以外的词语被称为内容词。由于功能词在表达文章主题时没有实际意义,因此其重要性是0。划分出各个词语的类别后,合并同根的词语(如teacher和teachers),统计每个内容词在文中出现的频率,当某个词语的词频大于设定的阀

6、值F时,则可以认为该词是文本主题表达的主题词。句子的重要性由词频和词语所处位置两个因素决定。计算句子重要性时当一句话中两个主题词中间夹的功能词数量大于4时,则忽略该句子,不作为摘要候选句。.第2章自动摘要相关理论知识介绍2.1摘要分类与方法按照生成摘要的方法,分为指示性摘要、评论性摘要和报道性摘要三类。指示性摘要(IndicativeAbstract),也称摘录性摘要。它是文本标题、研究内容的概述,包含目的、方法和结论等,字数通常在100~200,也被称为文献的简介。由于其包含的信息量少,不能直接反映文献的真实信息,因此不能代替原

7、文献,仅能为用户提供参考。用户通过阅读此类摘要,可以决定是否继续阅读完整文献。指示性摘要常被应用在综述、专利、论文集以及一些纯理论性文章中,美国的EngineeringIndex就是此类摘要。评论性摘要(CriticalAbstract),与早期摘要定义不同,由近代发展。此类摘要生成过程中加入了摘要员对文献的看法以及评论,摘要的质量依赖于写摘要的人对某一领域的专业知识水平。好的评论性摘要可以帮助读者更好的理解文献,如果摘要员没有阅读大量的相关文献,经过多次实验,则会严重影响生成的摘要质量,所以摘要员在编写摘要时要十分谨慎。目前,为

8、用户提供评论性摘要的主要有美国的《应用力学评论》和前苏联的《力学摘要》等。报道性摘要(InformationAbstract),与指示性摘要不同,它主要描述的是文献的主要论点,不添加的评论,通常在200~300字。报道性摘要可以在某种程度上代替原文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。