欢迎来到天天文库
浏览记录
ID:53029428
大小:353.89 KB
页数:4页
时间:2020-04-14
《基于免疫原理词表示的词相似度计算-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第5卷第3期智能计算机与应用V01.5No.32015年6月INTELLIGENTCOMPUTERANDAPPLICATIONSJun.2015基于免疫原理词表示的词相似度计算杨锦锋。关毅(哈尔滨工业大学计算机科学与技术学院,哈尔滨150001)摘要:词相似度计算在自然语言处理、信息抽取等研究中发挥重要作用。基于语料的词相似度计算是一类重要方法,其基本思路是从语料中学习词的向量表示,基于向量余弦相似度值作为词的语义相似度。本文提出一种新的基于免疫原理词表示的词相似度计算方法,并在SemEval2012Task4数据上进行了验证并和其他方法进行比较,实验表明本文的方法
2、是有效的,并且优于大多数比较系统。关键词:词相似度;词表示;免疫原理;分布式语义假设中图分类号:TP391.4l文献标识码:A文章编号:2095—2163(2015)03—0061—04WordSimilarityMeasurebasedOilhlllnunePrinciplesInspiredWordRepresentationYANGJinfeng.GUANYi(SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China)Abstract:Wl0rdsim
3、ilaritymeasureisimportanttoresearchesonnaturallanguageprocessing.informationextraction.etc.Corpusbasedsimilaritycomputingisamostimportanttypeofmethodsforthetask,bywhichwordvector—representationsarelearntfromeorpusesandareappliedforwordsimilaritymeasurewithacosinefunction.Thisresearchpr
4、oposesanewmethodforwordsimilaritycomputingbasedonimmuneprinciplesinspiredwordrepresentations.TheproposedmethodisvalidatedonthedatasetofSemEval2012Task4andiscomparedwithotherpublishedresearches.Experimentalresultsshowthattheproposedmethodisefectiveandout[1erformsmostotherpublishedresear
5、ches.Keywords:WordSimilarity;WordRepresentation;ImmunePrinciple;DistributionalHypothesisO引言的基于免疫原理词表示的词相似度计算方法,并在SemEval面向词的语义相似度问题主要体现在两个方面的研究,2012Task4数据上进行了验证。通过对比实验证明,本文提一个是基于属性相似的词语义相似度,一个是基于模式相似出的词相似度计算方法不仅可行、而且有效。的词关系相似度⋯。本研究主要关注基于属性相似的词语1相关工作义相似度计算。如果两个词之间有较高的属性相似度,那么词相似度计算在应用中
6、具有非常重要的意义,因而该研称这两个词为义词。词相似度计算是为了挖掘语义相似的究一直备受关注。基于词典的方法简单易行,并且准确率较词或者相关的词,用于缓解数据稀疏的问题,因而在自然语高,但是受限于词典的规模。在开放领域,常用的词典有:英言处理、信息抽取、信息检索等任务中发挥重要作用,比如特文词典是WordNet,中文词典是Hownet、同义词词林(扩展征抽取、查询扩展、问旬匹配等。词语义相似度计算方法主版)等。在其他特定领域,为了能准确判断两个词的语义相要有两类,一类是基于词典或叙词表的方法,这类方法的典同,不惜花费大量人力维护一个庞大的知识库,比如医疗领型特点是通
7、过计算词典中与两个词相关联的边的数量计算域中的UMLS。知识库如此重要,以至于需要采用基于语料的词的相似度;另一类方法是基于语料的方法,这类方法的典方法计算词的相似度来挖掘同义词或相关词,完善知识库。型特点是获取词的上下文信息,处于相似上下文的词具有一在各类互联网应用蓬勃发展的时代,获得海量的文本数定的相似度J。第二类方法不受限于词典的规模,可扩展性据变得很便捷,因而基于语料的词相似度计算能自动挖掘出好,逐渐成为主流方法。本研究采用第二类方法,从语料中更多的同义词(或候选)。本文主要关注基于普通文本语料学习词的向量表示,并基于词表示计算词的相似度。现有的的词相似
此文档下载收益归作者所有