欢迎来到天天文库
浏览记录
ID:18554167
大小:397.51 KB
页数:9页
时间:2018-09-18
《基于维基语义的多文档文摘研究_龚书》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南京大学学报(自然科学)第47卷第4期Vol.47,No.4JOURNALOFNANJINGUNIVERSITY2011年7月July2011(NATURALSCIENCES)檿檿檿檿檿檿殨殨檿檿殨数据挖掘专栏殨檿檿檿檿檿檿*基于维基语义的多文档文摘研究**龚书,瞿有利,田盛丰(北京交通大学计算机与信息技术学院,北京,100044)摘要:多文档文摘作为自然语言处理领域的重要技术之一,能从不同角度辅助用户实现高效的信息获取.由于文档集合内的内容往往来自不同的信息源,文本之间通常存在丰富而复杂的语义关系.常用的基于词的文档表示法,难以为文摘的语义分析过程提供充足而准确的数据信息.为此,我们提出使
2、用维基百科———当今世界最大的在线概念语料库———为多文档文摘的提取提供语义支持.一方面,我们通过提取文档中的维基概念,生成准确一致的句子表示形式.另一方面,在计算句子特征时,我们利用维基词条的首段指导机器文摘的提取.我们首先通过计算概念在维基中的全局相关性和当前文档集内的局部相关性,获取概念的权重.然后在维基概念表示的基础上,为文档中的句子提取多种基于维基的特征,并最后用于文摘生成.在实验中,我们依次用各个维基特征独立生成文摘,并使用ROUGE(Recall-OrientedUnderstudyforGistingEvaluation,面向召回率的要点评估)指标评价文摘质量.通过比较,实验验
3、证了维基词条首段能较好的提升文摘质量.关键词:自动文摘,语义分析,概念表示,维基百科中图分类号:TP39Multi-documentssummarizationutilizingsemanticsinWikipediaGongShu,QuYou-Li,TianSheng-Feng(SchoolofComputerandInformationTechnology,BeijingJiaotongUniversity,Beijing,100044,China)Abstract:Asanimportancetechniqueofnaturallanguageprocessing,multi-docum
4、entssummarizationcanfacilitateusers’informationretrievalprocesses.Asthedocumentsinacollectionarealwayscollectedfromdifferentresources,thereexistabundantandalsocomplexsemanticrelationsinsideadocumentcollection.It’shardforthewidelyusedword-basedtextrepresentationtoprovidesufficientandaccurateinformati
5、onforsemanticanalysisinsummarizationprocess.Thus,wetrytouseWikipedia,whichhasextensiveconceptscoverage,toextracttheconcept-basedrepresentationofdocuments.Weassesstheimportanceofconceptsusingbothglobalandlocalinformation.TheglobalrelatednessofconceptsisbasedonWikipedia’slinkstructure,whilethelocalrel
6、atednessiscalculatedbasedonconcepts’co-occurrenceinsentence.Threewiki-basedfeaturesareproposed:Thefirstoneis*基金项目:教育部科学技术研究重点项目(108126),国家自然科学基金(10871019/a0107)收稿日期:2011-01-22**通讯联系人,E-mail:monicashu452@gmail.com第4期龚书等:基于维基语义的多文档文摘·399·thewidelyusedsentencesaliencefeaturebasedonMarkovChain.Theothert
7、woarebothbasedonsentencesimilaritywithfirstparagraphsofconceptarticlesinWikipedia,butoneusingallconceptsoccurringincollectionwhiletheotherusingonlyothercontainedinsentenceitself.Finallywelinearlycombi
此文档下载收益归作者所有