基于句子语义距离的释义识别研究

基于句子语义距离的释义识别研究

ID:10970079

大小:1.37 MB

页数:7页

时间:2018-07-09

基于句子语义距离的释义识别研究_第1页
基于句子语义距离的释义识别研究_第2页
基于句子语义距离的释义识别研究_第3页
基于句子语义距离的释义识别研究_第4页
基于句子语义距离的释义识别研究_第5页
资源描述:

《基于句子语义距离的释义识别研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于句子语义距离的释义识别研究黄江平1,姬东鸿1(1.武汉大学计算机学院,湖北武汉430072)摘要:针对释义识别任务如何学习上下文语义的问题,提出了利用词向量来表示句子语义距离的模型。首先,利用Word2Vec训练大规模的词向量模型,把词的语义信息利用向量分布式表示;然后通过欧氏距离来计算句子间词的移动开销;最后基于EMD模型实现了从词语义距离到句子语义距离的建模,通过采用句子变换矩阵来实现句子间语义距离的度量,进而从语义相似性方面进行句子释义识别。实验基于SemEval-2015PIT任务,

2、与作为实验基线的逻辑回归和加权矩阵因数分解方法进行比较,提出的模型采用有监督实验时,F1值非常接近实验基线,而采用无监督方法实验时,F1值提高了5.8%。关键词:释义识别;词向量;句子语义距离;推特中图分类号:TP391文献标志码:AParaphraseIdentificationBasedonSentenceSemanticDistancesHUANGJiangping1,JIDonghong1,(1.ComputerSchool,WuhanUniv.,Wuhan430072,China)Ab

3、stract:Tolearnthecontextsemanticinformationofwordforparaphraseidentification,themodelforrepresentingsentencesemanticdistancesbasedonwordembeddingswasproposedforparaphrasedetectiontasks.Firstly,alarge-scalewordvectorswastrainedwithword2vecmodel,whiche

4、mbeddedthesemanticinformationinworddistributionalrepresentation.Then,thetravelcostbetweenwordsinsentencescomputedwithEuclideandistanceintheword2vecembeddingspace.Finally,themodelfromwordembeddingstosentencedistanceswasbuiltbasedonEMD,andsentencetrans

5、portationmatrixwaspresentedfordistancemetricbetweensentences.Thesentencesemanticdistanceswereusedforparaphraseidentification.ExperimentsbasedonSemEval-2015PITTaskshowedthattheproposedmodelapproximatestothebaselineinsupervisedmethodandgivesanimproveme

6、ntof5.8%F-scoreinunsupervisedmethods,comparedtotheweightedmatrixfactorization.KeyWords:paraphraseidentification;wordvector;sentencesemanticdistances;twitter77释义就是句子或者短语通过不同的词来表达相同的意义,释义识别(paraphraseidentification,PI)就是判断任意长度的两个句子或短语是否表达相同的意义[1],它被广泛应

7、用于问答[2](questionanswering,QA)、语义分析[3](semanticparsing,SP)及机器翻译[4](machinetranslation,MT)等自然语言处理任务。传统的释义识别大多基于词汇的方法,如WordNet、Lexical等。此类方法[5,6]完全依赖于词汇的匹配,虽然它们可以匹配n-grams,但不能识别出由同义词表达的相似意义。为了克服词汇匹配方法的不足,基于WordNet和语料库的方法被用于语义相似性的度量[7],该方法为句子中的每个词利于诸如互信息

8、的方法从其它句子中选择最相似的词,进一步判断句子的相似性。近年来,基于词分布式表示的方法被广泛用于释义识别任务。通过大量的训练语料学习词汇的分布式语义,然后计算词之间的语义相似性并用来进一步计算句子间的释义识别,这类方法都是基于神经网络模型学习词向量的表示。最近,Socher[8]提出了递归自编码的7收稿日期:2016-3-11基金项目:国家自然科学基金重点项目资助(61133012;61373108);国家社会科学基金重点资助项目(11&ZD89)作者简介:黄江平(1985—),男,博士生.研

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。