基于边权重的主题核心术语抽取

基于边权重的主题核心术语抽取

ID:31359648

大小:122.00 KB

页数:14页

时间:2019-01-09

基于边权重的主题核心术语抽取_第1页
基于边权重的主题核心术语抽取_第2页
基于边权重的主题核心术语抽取_第3页
基于边权重的主题核心术语抽取_第4页
基于边权重的主题核心术语抽取_第5页
资源描述:

《基于边权重的主题核心术语抽取》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于边权重的主题核心术语抽取  摘要:术语抽取是层次体系构建的首要子任务。目前的术语抽取研究主要集中在文本语料并且混合多个主题,存在知识获取的瓶颈和术语表述的模糊与歧义的问题。为了解决这些问题,本文提出一种基于边权重的主题核心术语抽取方法,从社会化标签中抽取主题核心术语。考虑到社会化标签丰富的语义关联特征,本文提出结合具体主题的局部共现和资源集合中所有主题的全局语义相似度的边权重。新颖的边权重将传统的随机游走方法分解成多个主题相关的随机游走,并针对每个具体主题排序相关的候选术语。排序靠前的术语被抽取作为主题核心术语。实验结果表明本文提出的

2、方法显著优于前人的相关工作。  关键词:术语抽取;社会化标签;主题核心术语抽取;主题相关的随机游走  中图分类号:TP391文献标识号:A  TopicKeyTermExtractionbasedonEdgeWeight  XUEHan1,2,QINBing1,LIUTing1  (1SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China;2Library,HarbinEngineeringUniversity,Harbin15

3、0001,China)  Abstract:Termextractionisaprimarysubtaskofhierarchyconstruction.Existingstudiesfortermextractionmainlyfocuson14textcorporaandindiscriminatelymixnumeroustopics,whichmayleadtoaknowledgeacquisitionbottleneckandmisconception.Todealwiththeseproblems,thispaperpropo

4、sesamethodoftopickeytermextractionbasedonedgeweighttoextracttopickeytermfromfolksonomy.Inviewofsemanticassociationcharacteristicsoffolksonomy,theedgeweightwhichcombinesthelocalco-occurrenceinaspecifictopicwiththeglobalsemanticsimilarityoverallthetopicdimensionsinthewholec

5、ollectionconsideredisproposed.Thenewedgeweightcandecomposeatraditionalrandomwalkintomultiplerandomwalksspecifictovarioustopics,andeachofthesewalksoutputsalistoftermsorderedonthebasisofimportancescore.Then,thetop-rankingtermsareextractedasthetopickeytermsforeachtopic.Exper

6、imentsshowthattheproposedmethodoutperformsotherstate-of-the-artmethods.  Keywords:TermExtraction;Folksonomy;TopicKeyTermExtraction;Topic-SensitiveRandomWalk  0引言14  作为层次体系构建的第一步,术语抽取是一项重要的子任务[1]。核心术语通常定义为可以概括语料所蕴含语义主题内容的一系列术语。语料往往包含多个主题,其中每个术语对于不同的主题会表达不同的含义。多个主题的共有术语在不同主

7、题的重要性往往不同。混合主题衡量术语的重要性可能会导致某些不太常见或者新涌现出的主题核心术语无法被识别出来。例如,“牛仔”在“西部”主题中是核心术语,而在其他主题中则是非核心术语。混合多个主题构建的单一层次体系容易导致不同主题共有术语的模糊和歧义问题,在同一个层次体系中用完全不同的含义定义同一个术语是不准确的,然而忽略其中任何一个含义会导致无法完整诠释术语的含义。为此,本研究提出抽取主题核心术语,即根据从语料中学习得到的具体主题,抽取能够较好地概括和描述该主题的内容并与此主题下其他非核心术语密切相关的术语。例如,电影领域的主题核心术语通常

8、有“喜剧”、“科幻”、“传记”等。主题核心术语抽取是许多自然语言处理任务的基础,例如,信息检索和导航、问答、推荐系统等。  目前核心术语抽取研究主要基于领域文本语料,但是发现能够准确描述专业性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。