多文档文摘中句子优化选择方法研究

多文档文摘中句子优化选择方法研究

ID:8081765

大小:210.95 KB

页数:9页

时间:2018-03-05

多文档文摘中句子优化选择方法研究_第1页
多文档文摘中句子优化选择方法研究_第2页
多文档文摘中句子优化选择方法研究_第3页
多文档文摘中句子优化选择方法研究_第4页
多文档文摘中句子优化选择方法研究_第5页
资源描述:

《多文档文摘中句子优化选择方法研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、∗多文档文摘中句子优化选择方法研究秦兵刘挺陈尚林李生(哈尔滨工业大学计算机科学与技术学院信息检索研究室,150001)qinb@ir.hit.edu.cnSentencesOptimumSelectionforMulti-documentSummarizationQINBingLIUTingCHENShang-LinLISheng(InformationRetrievalLaboratory,SchoolofComputerScienceandTechnology,HarbinInstituteofTechnolog

2、y,Harbin150001)Abstract:Anapproachforsentencesoptimumselectionbasedonsubtopicsofmulti-documentsisproposed.Multi-documentscanbeclusteredintosubtopicsaftersentencessimilaritycalculating,whichcanbesortedbythescoring.Thensentencesfromallsubtopicsareselectedinordert

3、ogetmaximumcoverageratioofeffectivewords.Usingthismethod,theinformationredundancyofeachsubtopicandamongsubtopicsisreduced.Theinformationcoverageratioofthesummarizationisbetterimproved.Theexperimentshowstheresultissatisfied.Keywords:multi-documentsummarization;s

4、ub-topic;sentenceoptimumselection摘要:在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法。首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序。以文摘中有效词的覆盖率作为优化指标,在各个子主题中选择文摘句。从减少子主题之间及子主题内部的信息的冗余性两个角度选择文摘句,使文摘的信息覆盖率得到很大提高。实验表明,生成的文摘是令人满意的。关键词:多文档文摘;子主题;句子优化选择中图分类号:TP391.3;TP181引言随着

5、互联网的发展和普及,跨文本的研究越来越受到人们的重视。将同一主题的多个文本去除冗余信息,按照一定的压缩比有机的融合在一起,即为多文档文摘。多文档文摘技术可以作为搜索引擎的后处理,将与用户相关的文档形成文摘结果提交给用户,帮助用户在较少的时间获得较多的信息,大大提高了获取信息的效率。同时,还可以应用在其他领域,例如政府部门对各地的信息的汇总,对某一事件发展历程的跟踪和汇总等。近几年国际上许多会议都涉及到了多文档文摘技术,例如DUC(DocumentUnderstandingConference),TDT(TopicDe

6、tectionTracing),TREC(TextRetrievalConference)。∗本文受到国家自然科学基金重点项目(项目编号:60435020)资助.1近年来,研究者们在多文档文摘的研究上取得了许多成绩。比较具有代表性的多文档文摘系统有美国密歇根大学的DragomirR.Radev提出的MEAD[1]多文档文摘系统,该系统通过以同一主题多数文本涉及的词作为质心,按照句子与这个质心相关性来对句子进行排序,抽取句子生成文摘;卡纳基梅隆大学的JadeGoldStein提出的MMR(Maximalmarginal

7、relevance)[2]方法,该方法在选择文摘内容时,优先选择与query和文档集合最大相关的文本单元,并且该文本单元与已选择到文摘中的内容最小相关,这样生成的文摘具有较好的覆盖性,与用户的需求密切相关,适用于和需求相关的多文档文摘系统;Redev等人的基于信息抽取的多文档文摘系统SUMMONS[3],通过建立的模板生成文摘,该方法只能适用于特定域的多文档文摘系统。近来,有的学者通过聚类和HMM(HiddenMarkovModels)的方法来生成多文档文摘[4][5]。本文描述的文摘系统是以文本内容为出发点,以句子

8、的语义相似度为基础,首先形成多文档集合的子主题,并在子主题排序和最优目标函数的指导下,在各个子主题中选取句子生成文摘。句子的选择是多文档文摘的一个重要环节。在有限的字数下,如何使文摘中的句子最好的表达原始文档的信息,是多文档文摘研究的目标。其中,如何使文摘在有限的字数要求下,既能使信息覆盖率最大,又能尽可能提高主题的反映度,是提高文摘质量的一个

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。