阐释新闻文档摘要自动生成

阐释新闻文档摘要自动生成

ID:23865172

大小:54.00 KB

页数:6页

时间:2018-11-11

阐释新闻文档摘要自动生成_第1页
阐释新闻文档摘要自动生成_第2页
阐释新闻文档摘要自动生成_第3页
阐释新闻文档摘要自动生成_第4页
阐释新闻文档摘要自动生成_第5页
资源描述:

《阐释新闻文档摘要自动生成》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、阐释新闻文档摘要自动生成新闻文档摘要自动生成论文导读:本论文是一篇关于新闻文档摘要自动生成的优秀论文范文,对正在写有关于摘要论文的写有一定的参考和指导作用,【摘要】本文研究了新闻文档摘要自动生成技术,在认真总结前人研究成果的基础上,设计了新闻文档摘要自动生成技术,在认真总结前人研究成果的基础上,设计了新闻文档摘要自动生成系统,该系统是采用自动摘录原文中句子生成摘录性摘要的策略,它将文本视为句子的线性序列,将句子视为词的线性序列。然后通过计算句子的权值,对原文中的所有句子按权值按从大到小排序,权值最高的若干句子被确定为文摘句,然后将所有文摘句按照它们在原文中的出现顺序输出。该系统直接利用计

2、算机进行新闻摘要的自动生成,要实现的功能就是给定一个新闻文档后,经过统计分析,给出文档的摘要句并依照原文顺序依次输出。系统力求摘要句抓住原文的核心内容,语句连贯,不遗漏主题。  系统主要分为文本预处理、分词、关键词提取、摘要句提取四个模块。考虑到开发周期和实际使用质量,在分词模块直接采用的是评价较好的中科院分词系统,但又针对新闻文档的特征在分词后又添加了进行新词识别模块,文中还给出了关键词和摘要句提取的权值公式。  【关键词】自动摘要;新词识别;词频;权值    一、绪论  对于新闻文本来说,虽然目前各大新闻入口X站针对电子新闻有大致上的分类,但在这样的结构下,每天仍然有不计其数的新闻,

3、阅览者必须利用很多的时间,在庞大的新闻语料库中搜寻自己喜好的信息。这是非常费时和耗费精力的事,如何解决这个难题呢?面向新闻文档的自动摘要技术就是解决这一难题的有力工具。本文介绍了该技术,并利用这项技术设计了新闻文档摘要自动生成系统。  本文研究内容  本文在认真总结前人研究成果的基础上,着重研究了新闻文档摘要自动生成技术,并且还给出了新闻文档摘要自动生成系统的分析与设计思路,最后对系统的设计进行了详细的叙述。  本文的研究内容主要包括以下几个方面:  (1)深入分析了新闻文档的结构和语义等各方面的特征,明确新闻文档摘要的组成要素,提出了新闻文档自动摘要的关键技术,讨论了其中所涉及的技术难

4、点。  (2)研究了适用于新闻文档的自动摘要技术,并分析与设计新闻文档摘要自动生成系统。  二、新闻文档摘要自动生成系统的设计  新闻文档的结构主要是文档格式,而不是重点内容。新闻的内容是自然语言,直接通过计算机处理,是非常困难,因此需要使用文本表示的策略来描述文本,方便电脑进行处理,也需要对文本进行处理,提取特征向量。  (一)设计目标  我们最主要目标是对输入的新闻文档自动生成全面简洁的摘要。为达到这个目标,首先需要分析文档摘要的特点。美国同行曾对部分手工摘要中的摘要句进行了统计,报道结果如下:手工摘要中91%的摘要句是原文中的句子,其中79%的摘要句是完全照抄,3%的摘要句是由原文

5、中的句子拼凑而来,4%的摘要句是由原文句改造而来,5%的摘要句是由原文中的句子拼接再改造,只有9%的摘要句是人工自撰的[1]。也就是说:现代大多数手工文学中的大部分摘要基本上都归类到摘录性摘要的范畴中。对于这种统计结果,我们分析其理由可能在于:大多数文章可以通过从其中挑选出一些重要的句子,以反映文本的主要内容。虽然如今电脑的运转速度非常快,又有很强的形式分析和统计能力,但在语义分析与理解能力方面几乎是零。因此,研究和开发新闻文档摘要自动生成系统,就能够从自动编制摘录性摘要取得突破。在初步成功地摘录从原句的基础上,向人工摘要逐渐逼近。  (二)系统的结构模型  新闻文档摘要自动生成系统使用

6、的策略是把原文中的句子自动摘录生成摘录性摘要,将文档看作成句子的线性序列,将句子看作成词的线性序列,通过计算词的权值——>计算句子的权值——>把原文中的所有句子按照权值高低降序排列——>权值最高的若干新闻文档摘要自动生成由优秀站.zgl等大写的英文单词时,这个句子可能包含有重要的信息。在新闻中,在科技类和金融类新闻中大写字母出现的频率特别高,特别是它们经常包含着重要信息,往往代表名词义的关键特征。  (4)词的位置特征(pos)  新闻中的第一段通常明确描述了新闻的内容,表明了新闻的主要观点。因而出现在第一段中的词汇也较重要。新闻的最后一段通常是总结该则新闻的内容,所以在该段中的词汇也较

7、重要。  3.摘要句的提取  提取出关键词后,我们就可以计算新闻文档中每个句子的权值,从而定量的确定每个句子在文档中的重要性,根据句子权值的大小来提取摘要句,然后根据摘要句来生成新闻文档的摘要。  摘要句的提取主要依据以下几个特征:  (1)位置特征(Position)  在词的特征选择中,我们考虑了词的位置特征,同样,对于句子来说,它在文章中的重要程度也和其所在位置有很大关系[5]。  (2)实词特征(Word)  如果某个语句拥

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。