欢迎来到天天文库
浏览记录
ID:31359648
大小:122.00 KB
页数:14页
时间:2019-01-09
《基于边权重的主题核心术语抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于边权重的主题核心术语抽取 摘要:术语抽取是层次体系构建的首要子任务。目前的术语抽取研究主要集中在文本语料并且混合多个主题,存在知识获取的瓶颈和术语表述的模糊与歧义的问题。为了解决这些问题,本文提出一种基于边权重的主题核心术语抽取方法,从社会化标签中抽取主题核心术语。考虑到社会化标签丰富的语义关联特征,本文提出结合具体主题的局部共现和资源集合中所有主题的全局语义相似度的边权重。新颖的边权重将传统的随机游走方法分解成多个主题相关的随机游走,并针对每个具体主题排序相关的候选术语。排序靠前的术语被抽取作为主题核心术语。实验结果表明本文提出的
2、方法显著优于前人的相关工作。 关键词:术语抽取;社会化标签;主题核心术语抽取;主题相关的随机游走 中图分类号:TP391文献标识号:A TopicKeyTermExtractionbasedonEdgeWeight XUEHan1,2,QINBing1,LIUTing1 (1SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China;2Library,HarbinEngineeringUniversity,Harbin15
3、0001,China) Abstract:Termextractionisaprimarysubtaskofhierarchyconstruction.Existingstudiesfortermextractionmainlyfocuson14textcorporaandindiscriminatelymixnumeroustopics,whichmayleadtoaknowledgeacquisitionbottleneckandmisconception.Todealwiththeseproblems,thispaperpropo
4、sesamethodoftopickeytermextractionbasedonedgeweighttoextracttopickeytermfromfolksonomy.Inviewofsemanticassociationcharacteristicsoffolksonomy,theedgeweightwhichcombinesthelocalco-occurrenceinaspecifictopicwiththeglobalsemanticsimilarityoverallthetopicdimensionsinthewholec
5、ollectionconsideredisproposed.Thenewedgeweightcandecomposeatraditionalrandomwalkintomultiplerandomwalksspecifictovarioustopics,andeachofthesewalksoutputsalistoftermsorderedonthebasisofimportancescore.Then,thetop-rankingtermsareextractedasthetopickeytermsforeachtopic.Exper
6、imentsshowthattheproposedmethodoutperformsotherstate-of-the-artmethods. Keywords:TermExtraction;Folksonomy;TopicKeyTermExtraction;Topic-SensitiveRandomWalk 0引言14 作为层次体系构建的第一步,术语抽取是一项重要的子任务[1]。核心术语通常定义为可以概括语料所蕴含语义主题内容的一系列术语。语料往往包含多个主题,其中每个术语对于不同的主题会表达不同的含义。多个主题的共有术语在不同主
7、题的重要性往往不同。混合主题衡量术语的重要性可能会导致某些不太常见或者新涌现出的主题核心术语无法被识别出来。例如,“牛仔”在“西部”主题中是核心术语,而在其他主题中则是非核心术语。混合多个主题构建的单一层次体系容易导致不同主题共有术语的模糊和歧义问题,在同一个层次体系中用完全不同的含义定义同一个术语是不准确的,然而忽略其中任何一个含义会导致无法完整诠释术语的含义。为此,本研究提出抽取主题核心术语,即根据从语料中学习得到的具体主题,抽取能够较好地概括和描述该主题的内容并与此主题下其他非核心术语密切相关的术语。例如,电影领域的主题核心术语通常
8、有“喜剧”、“科幻”、“传记”等。主题核心术语抽取是许多自然语言处理任务的基础,例如,信息检索和导航、问答、推荐系统等。 目前核心术语抽取研究主要基于领域文本语料,但是发现能够准确描述专业性
此文档下载收益归作者所有