基于维基语义的多文档文摘研究_龚书

基于维基语义的多文档文摘研究_龚书

ID:18554167

大小:397.51 KB

页数:9页

时间:2018-09-18

基于维基语义的多文档文摘研究_龚书_第1页
基于维基语义的多文档文摘研究_龚书_第2页
基于维基语义的多文档文摘研究_龚书_第3页
基于维基语义的多文档文摘研究_龚书_第4页
基于维基语义的多文档文摘研究_龚书_第5页
资源描述:

《基于维基语义的多文档文摘研究_龚书》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、南京大学学报(自然科学)第47卷第4期Vol.47,No.4JOURNALOFNANJINGUNIVERSITY2011年7月July2011(NATURALSCIENCES)檿檿檿檿檿檿殨殨檿檿殨数据挖掘专栏殨檿檿檿檿檿檿*基于维基语义的多文档文摘研究**龚书,瞿有利,田盛丰(北京交通大学计算机与信息技术学院,北京,100044)摘要:多文档文摘作为自然语言处理领域的重要技术之一,能从不同角度辅助用户实现高效的信息获取.由于文档集合内的内容往往来自不同的信息源,文本之间通常存在丰富而复杂的语义关系.常用的基于词的文档表示法,难以为文摘的语义分析过程提供充足而准确的数据信息.为此,我们提出使

2、用维基百科———当今世界最大的在线概念语料库———为多文档文摘的提取提供语义支持.一方面,我们通过提取文档中的维基概念,生成准确一致的句子表示形式.另一方面,在计算句子特征时,我们利用维基词条的首段指导机器文摘的提取.我们首先通过计算概念在维基中的全局相关性和当前文档集内的局部相关性,获取概念的权重.然后在维基概念表示的基础上,为文档中的句子提取多种基于维基的特征,并最后用于文摘生成.在实验中,我们依次用各个维基特征独立生成文摘,并使用ROUGE(Recall-OrientedUnderstudyforGistingEvaluation,面向召回率的要点评估)指标评价文摘质量.通过比较,实验验

3、证了维基词条首段能较好的提升文摘质量.关键词:自动文摘,语义分析,概念表示,维基百科中图分类号:TP39Multi-documentssummarizationutilizingsemanticsinWikipediaGongShu,QuYou-Li,TianSheng-Feng(SchoolofComputerandInformationTechnology,BeijingJiaotongUniversity,Beijing,100044,China)Abstract:Asanimportancetechniqueofnaturallanguageprocessing,multi-docum

4、entssummarizationcanfacilitateusers’informationretrievalprocesses.Asthedocumentsinacollectionarealwayscollectedfromdifferentresources,thereexistabundantandalsocomplexsemanticrelationsinsideadocumentcollection.It’shardforthewidelyusedword-basedtextrepresentationtoprovidesufficientandaccurateinformati

5、onforsemanticanalysisinsummarizationprocess.Thus,wetrytouseWikipedia,whichhasextensiveconceptscoverage,toextracttheconcept-basedrepresentationofdocuments.Weassesstheimportanceofconceptsusingbothglobalandlocalinformation.TheglobalrelatednessofconceptsisbasedonWikipedia’slinkstructure,whilethelocalrel

6、atednessiscalculatedbasedonconcepts’co-occurrenceinsentence.Threewiki-basedfeaturesareproposed:Thefirstoneis*基金项目:教育部科学技术研究重点项目(108126),国家自然科学基金(10871019/a0107)收稿日期:2011-01-22**通讯联系人,E-mail:monicashu452@gmail.com第4期龚书等:基于维基语义的多文档文摘·399·thewidelyusedsentencesaliencefeaturebasedonMarkovChain.Theothert

7、woarebothbasedonsentencesimilaritywithfirstparagraphsofconceptarticlesinWikipedia,butoneusingallconceptsoccurringincollectionwhiletheotherusingonlyothercontainedinsentenceitself.Finallywelinearlycombi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。