欢迎来到天天文库
浏览记录
ID:31777361
大小:53.56 KB
页数:3页
时间:2019-01-18
《基于web技术文本自动摘要方法》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、基于Web技术文本自动摘要方法摘要:随着互联网技术的推广和普及,从海量信息中快速的获得想要的文章显得越来越重要。本文从句子重要性及自动摘要算法两个方面对自动摘要方法进行了阐述与改进。关键词:自动摘要主题词LUHN算法LSA算法自动文摘是利用计算机自动地从原始文献中提取文摘。文摘是准确全面的反映某一文献中心内容的简洁连贯的短文。本文从句子重要性的评价及摘要算法两方面讨论自动摘要技术。1.句子重要性的评价1.1段落中句子权重评价美国的P.E.Baxendale的研究结果显示:人工摘要中的句子为段首句的比例为85%,是段尾句的比例为7%。美国康奈尔大学G.Salton提
2、出了寻找文章的中心段落为文摘核心的思想。我们观察表明:除了论题句、段首、段尾等句子之外,段落的第二句常常表示段落的主题[53]o而Mead数据中心的自动摘要系统SearchableLead,只是简单的摘录文件中的前60、150或250个英文词汇,便达到了90%以上的可接受度(Brandow,etal.,1995)0故在本研究中分别考虑了段落位置,和句子在段落重的位置对句子重要性的影响分别按照如下规则赋予权重。第一段和文件的最后一段权重为1.2,在一个段落中第一句给予权重1.1,第二句给予权重1.2,尾句给予权重1.1,文章中句子的权重为段落权重和段落重句子权重的乘
3、积。经过第一个步骤的分析计算后,句子的得分可以由句子中重要词汇权重的加总在乘以句子的权重而来。句子得分计算公式如下:上述PWSij表示第Sij个子句的位置权重Sij表示文件中第i个句子的第j个子句,TPk代表句子中第k个主题词汇的重要性分数,n是指Sij子句中重要词汇的总数,最后SCORESij即为Sij子句的总得分1.2主题词评价针对WEB文档的结构化特征,在进行主题词选取时根据文档中词频的出现位置出现的频繁程度来评价词的重要性,并以此给出词的权重,赋予重要词汇权重,下面是具体的主题词选取和评价过程:能够指示文章主题的所谓有效词(或称实词)往往是中频词。根据句子
4、中实词的个数来计算句子的权值,这是Luhn首先提出的。V.A.Oswald主张句子的权值应按其所含代表性的“词串”的数量来计算;而Doyle则重视共现频度最高的“词对”;1995年Lisa.F.Rau采用相对词频的方法实现ANES(AutormaticNewsExtractionSystem)系统。本论文中,我们将文档中除去助动词等虚词后剩余的名词与动词以及形容词等作为候选主题词。这些词是能够表达一个句子内容的核心部分,被视为重要词汇部分,对其重要程度的评价根据web结构以及该词及该词在句中出现的频率多少而定,高频词往往与主题相关。通过对所有超文本标记的分析,以下
5、标记对表明文本的重要性具有很大的作用:标题、一级标题、二级标题、三级标题、四级标题、强壮、强调,黑体、标签。我们分别将其按结构所能体现词的重要性进行排序,顺序为:、,,,,,,,,并将其按照降序赋予权重到w9,其中1
此文档下载收益归作者所有