欢迎来到天天文库
浏览记录
ID:54367291
大小:847.81 KB
页数:5页
时间:2020-04-29
《基于维基百科的短文本语义扩展方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第31卷第10期计算机应用与软件Vol31No.102014年10月ComputerApplicationsandSoftwareOct.2014基于维基百科的短文本语义扩展方法研究122,31,3韩冬雷金花朱亚涛刘金刚1(首都师范大学计算机科学联合研究院北京100048)2(河北农业大学信息科学与技术学院河北保定071001)3(中国科学院计算技术研究所北京100190)摘要面对短文本信息内容稀疏、上下文语境提取困难的挑战,基于维基百科的结构化信息特征,提出一种利用NMF算法来扩展短文本语义的方法。通过自动识别与短文本信息语义特征相关的维基百科概念来丰富它的内容
2、,从而有效提高短文本信息数据挖掘和分析的效果。实验结果表明与已有方法相比,应用此方法可以进一步提高短文本信息语义扩展的效率和准确率。关键词短文本非负矩阵分解锚文本语义相似度中图分类号TP393文献标识码ADOI:10.3969/j.issn.1000386x.2014.10.011SEMANTICEXTENSIONOFSHORTTEXTBASEDONWIKIPEDIA122,31,3HanDongleiJinHuaZhuYataoLiuJin’gang1(JointFacultyofComputerScientificResearch,CapitalNormal
3、University,Beijing100048,China)2(CollegeofInformationScienceandTechnology,AgriculturalUniversityofHebei,Baoding071001,Hebei,China)3(InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China)AbstractFacingthechallengesofthesparsityofshorttextcontentandthedifficultyine
4、xtractinglinguisticcontext,weproposeasolutionbasedonthestructuredinformationfeatureofWikipediatoexpandthesemanticsofshorttextusingNMFalgorithm.ItenrichesthesemanticfeatureoftheshorttextinformationbyautomaticallyidentifyingtheconceptsinWikipediathatarepertinenttoit.Thereby,itcaneffect
5、uallyimprovetheeffectsofdataminingandanalysisonshorttextinformation.Experimentalresultsdemonstratethatcomparedwithexistedmethods,theuseofmethodisabletofurtherimprovetheefficiencyandaccuracyofthesemanticextensionofshorttextinformation.KeywordsShorttextNonnegativematrixfactorisation
6、(NMF)AnchortextSemanticrelatedness义。语义扩展的第一个阶段是短文本数据处理,主要包括以下0引言步骤:首先提取出短文本数据的所有ngram信息,并对短文本的ngram进行可链接性剪枝,在剪枝阶段,提取所有ngram的基于Web2.0应用平台,诸如微博、论坛、网上即时消息等可链接性、词频、逆文档频率等特征,并利用LR(logisticregres短文本信息流的快速发展。不同于传统的长文本,短文本具有sion)进行剪枝模型的学习,最终去掉不相关联语义的ngram。以下主要特征:接着是对短文本信息的ngram和维基百科概念关联和
7、消歧,即1)短文本中用语大多随意,具有不规范性[1];采用基于上下文相关的互信息方法将短文本数据剪枝后的2)短文本内容稀疏,很难提取出有效内容特征[1]。ngram与维基百科中的概念(锚文本)对应起来。符号描述如表以上特征对短文本信息的挖掘带来了很大困难。针对短文1所示。本内容的稀疏性,将其链接到其它的知识库来扩展内容的研究,表1符号描述表最近受到了越来越多的关注,而将维基百科作为辅助知识库也属性名属性描述成为一个主要的研究方向。目前基于维基百科的研究工作包含M一条短文本信息[2][3][4]了关键词语义扩展,命名实体识别,词义消歧等方面。GS(M)M产生的n
此文档下载收益归作者所有