欢迎来到天天文库
浏览记录
ID:5337507
大小:1021.65 KB
页数:8页
时间:2017-12-08
《tag-textrank —— 一种基于 tag 的网页关键词抽取方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、*Tag-TextRank:一种基于Tag的网页关键词抽取方法李鹏,王斌,石志伟,崔雅超,李恒训中国科学院计算技术研究所,北京,100190E-mail:lipeng01@ict.ac.cn摘要:关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值。本文尝试利用一种近年来受到广泛关注的新的信息源--社会化标签(Tag)来提高网页关键词抽取的质量。在对Tag数据进行统计分析的基础上,提出了利用Tag进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank。该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来
2、估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合。在公开语料上的实验表明,Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的适用性。关键词:社会化标签;关键词抽取;TextRank;Tag-TextRank。Tag-TextRank:aWebpageKeywordExtractionMethodBasedonTagsLiPeng,WangBin,ShiZhiwei,CuiYachao,LiHengxunInstituteofComputingTechnology,Beijing100
3、190E-mail:lipeng01@ict.ac.cnAbstract:Ononehand,keywordextractionistoextractrepresentativekeywordsfromtextsandcanbewidelyusedinmosttextprocessingapplications.Ontheotherhand,asanewinformationresource,taginformationhasbeenattractingextensiveattentioninthepastfewyears.Thispapertriedtoapply
4、taginformationinwebpagekeywordextractiontask,andatagbasedmethodcalledTag-TextRankwasproposed.Byintroducingrelevantdocumentsbasedoneachtagwordofthetargetwebpage,Tag-TextRankcanestimatetheedgeweightandthetermimportanceofthetermgraphforthepagemoreaccurately.Afterthat,theabovetagdependenti
5、mportancesforonetermarecombinedtogetherasthefinalresult.ExperimentalresultsonapubliclyavailablecorpusshowthatTag-TextRankoutperformsawell-knownkeywordextractionmethodTextRankonvariousmetrics.Keywords:Tag;KeywordExtraction;TextRank;Tag-TextRank1引言文章的关键词通常是指那些能够代表文章的主要内容并能区别其他文章的词汇。关键词抽取
6、作为文本处理的一个基本步骤,广泛应用于文本检索、分类、摘要、专有词典构建[1]及互联网广告等领域。关键词抽取根据抽取对象大致可以分为两类:一类是针对规范文本的抽取,比如对会议或者期刊中的论文进行关键词抽取。这些文章由于经过严格的编审,包含的噪音较少,[2][3][4]使用的语言规范,通常可以利用文档本身的语言学特征和统计特征来实现抽取过程。另一类是针对网页等非规范文本的抽取。和基于规范文本的抽取任务相比,基于网页的关键词抽取主要存在两点不同:一方面,网页中包含很多噪音信息,这阻碍了抽取精度的提*本文受国家自然科学基金项目(60776797、60873166)、国家9
7、73项目(2007CB311103)及国家863项目(2006AA010105)资助449高;另一方面,网页本身的结构化信息、网页之间的链接关系以及用户对网页标注的标签信息给网页的关键词抽取提供了一些新的可用的特征。其中,Tag是用户对网页的描述,[5]但是它们又和关键词有着本质的不同。这些信息实际上代表了用户对网页内容的某种理解,直观上可以利用这些信息来辅助提高关键词抽取的效果。这正是本文研究的出发点。具体地,我们对用户标记行为进行了统计分析,结果表明用户倾向于对多个类似的网页标记相同的Tag,也就是说同一个Tag往往会连接多篇文档。于是,对于要抽取的目标网页
此文档下载收益归作者所有