基于维基百科的短文本语义扩展方法研究.pdf

基于维基百科的短文本语义扩展方法研究.pdf

ID:54367291

大小:847.81 KB

页数:5页

时间:2020-04-29

基于维基百科的短文本语义扩展方法研究.pdf_第1页
基于维基百科的短文本语义扩展方法研究.pdf_第2页
基于维基百科的短文本语义扩展方法研究.pdf_第3页
基于维基百科的短文本语义扩展方法研究.pdf_第4页
基于维基百科的短文本语义扩展方法研究.pdf_第5页
资源描述:

《基于维基百科的短文本语义扩展方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第31卷第10期计算机应用与软件Vol31No.102014年10月ComputerApplicationsandSoftwareOct.2014基于维基百科的短文本语义扩展方法研究122,31,3韩冬雷金花朱亚涛刘金刚1(首都师范大学计算机科学联合研究院北京100048)2(河北农业大学信息科学与技术学院河北保定071001)3(中国科学院计算技术研究所北京100190)摘要面对短文本信息内容稀疏、上下文语境提取困难的挑战,基于维基百科的结构化信息特征,提出一种利用NMF算法来扩展短文本语义的方法。通过自动识别与短文本信息语义特征相关的维基百科概念来丰富它的内容

2、,从而有效提高短文本信息数据挖掘和分析的效果。实验结果表明与已有方法相比,应用此方法可以进一步提高短文本信息语义扩展的效率和准确率。关键词短文本非负矩阵分解锚文本语义相似度中图分类号TP393文献标识码ADOI:10.3969/j.issn.1000386x.2014.10.011SEMANTICEXTENSIONOFSHORTTEXTBASEDONWIKIPEDIA122,31,3HanDongleiJinHuaZhuYataoLiuJin’gang1(JointFacultyofComputerScientificResearch,CapitalNormal

3、University,Beijing100048,China)2(CollegeofInformationScienceandTechnology,AgriculturalUniversityofHebei,Baoding071001,Hebei,China)3(InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China)AbstractFacingthechallengesofthesparsityofshorttextcontentandthedifficultyine

4、xtractinglinguisticcontext,weproposeasolutionbasedonthestructuredinformationfeatureofWikipediatoexpandthesemanticsofshorttextusingNMFalgorithm.ItenrichesthesemanticfeatureoftheshorttextinformationbyautomaticallyidentifyingtheconceptsinWikipediathatarepertinenttoit.Thereby,itcaneffect

5、uallyimprovetheeffectsofdataminingandanalysisonshorttextinformation.Experimentalresultsdemonstratethatcomparedwithexistedmethods,theuseofmethodisabletofurtherimprovetheefficiencyandaccuracyofthesemanticextensionofshorttextinformation.KeywordsShorttextNonnegativematrixfactorisation

6、(NMF)AnchortextSemanticrelatedness义。语义扩展的第一个阶段是短文本数据处理,主要包括以下0引言步骤:首先提取出短文本数据的所有ngram信息,并对短文本的ngram进行可链接性剪枝,在剪枝阶段,提取所有ngram的基于Web2.0应用平台,诸如微博、论坛、网上即时消息等可链接性、词频、逆文档频率等特征,并利用LR(logisticregres短文本信息流的快速发展。不同于传统的长文本,短文本具有sion)进行剪枝模型的学习,最终去掉不相关联语义的ngram。以下主要特征:接着是对短文本信息的ngram和维基百科概念关联和

7、消歧,即1)短文本中用语大多随意,具有不规范性[1];采用基于上下文相关的互信息方法将短文本数据剪枝后的2)短文本内容稀疏,很难提取出有效内容特征[1]。ngram与维基百科中的概念(锚文本)对应起来。符号描述如表以上特征对短文本信息的挖掘带来了很大困难。针对短文1所示。本内容的稀疏性,将其链接到其它的知识库来扩展内容的研究,表1符号描述表最近受到了越来越多的关注,而将维基百科作为辅助知识库也属性名属性描述成为一个主要的研究方向。目前基于维基百科的研究工作包含M一条短文本信息[2][3][4]了关键词语义扩展,命名实体识别,词义消歧等方面。GS(M)M产生的n

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。