基于句子语义距离的释义识别研究

ID：10970079

大小：1.37 MB

页数：7页

时间：2018-07-09

资源描述：

《基于句子语义距离的释义识别研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、基于句子语义距离的释义识别研究黄江平1，姬东鸿1（1.武汉大学计算机学院，湖北武汉430072）摘要：针对释义识别任务如何学习上下文语义的问题，提出了利用词向量来表示句子语义距离的模型。首先，利用Word2Vec训练大规模的词向量模型，把词的语义信息利用向量分布式表示；然后通过欧氏距离来计算句子间词的移动开销；最后基于EMD模型实现了从词语义距离到句子语义距离的建模，通过采用句子变换矩阵来实现句子间语义距离的度量，进而从语义相似性方面进行句子释义识别。实验基于SemEval-2015PIT任务，

2、与作为实验基线的逻辑回归和加权矩阵因数分解方法进行比较，提出的模型采用有监督实验时，F1值非常接近实验基线，而采用无监督方法实验时，F1值提高了5.8%。关键词：释义识别;词向量;句子语义距离;推特中图分类号：TP391文献标志码：AParaphraseIdentificationBasedonSentenceSemanticDistancesHUANGJiangping1,JIDonghong1,(1.ComputerSchool,WuhanUniv.,Wuhan430072,China)Ab

3、stract:Tolearnthecontextsemanticinformationofwordforparaphraseidentification,themodelforrepresentingsentencesemanticdistancesbasedonwordembeddingswasproposedforparaphrasedetectiontasks.Firstly,alarge-scalewordvectorswastrainedwithword2vecmodel,whiche

4、mbeddedthesemanticinformationinworddistributionalrepresentation.Then,thetravelcostbetweenwordsinsentencescomputedwithEuclideandistanceintheword2vecembeddingspace.Finally,themodelfromwordembeddingstosentencedistanceswasbuiltbasedonEMD,andsentencetrans

5、portationmatrixwaspresentedfordistancemetricbetweensentences.Thesentencesemanticdistanceswereusedforparaphraseidentification.ExperimentsbasedonSemEval-2015PITTaskshowedthattheproposedmodelapproximatestothebaselineinsupervisedmethodandgivesanimproveme

6、ntof5.8%F-scoreinunsupervisedmethods,comparedtotheweightedmatrixfactorization.KeyWords:paraphraseidentification;wordvector;sentencesemanticdistances;twitter77释义就是句子或者短语通过不同的词来表达相同的意义，释义识别(paraphraseidentification,PI)就是判断任意长度的两个句子或短语是否表达相同的意义[1]，它被广泛应

7、用于问答[2](questionanswering,QA)、语义分析[3](semanticparsing,SP)及机器翻译[4](machinetranslation,MT)等自然语言处理任务。传统的释义识别大多基于词汇的方法，如WordNet、Lexical等。此类方法[5,6]完全依赖于词汇的匹配，虽然它们可以匹配n-grams，但不能识别出由同义词表达的相似意义。为了克服词汇匹配方法的不足，基于WordNet和语料库的方法被用于语义相似性的度量[7]，该方法为句子中的每个词利于诸如互信息

8、的方法从其它句子中选择最相似的词，进一步判断句子的相似性。近年来，基于词分布式表示的方法被广泛用于释义识别任务。通过大量的训练语料学习词汇的分布式语义，然后计算词之间的语义相似性并用来进一步计算句子间的释义识别，这类方法都是基于神经网络模型学习词向量的表示。最近，Socher[8]提出了递归自编码的7收稿日期：2016-3-11基金项目：国家自然科学基金重点项目资助（61133012；61373108）；国家社会科学基金重点资助项目（11&ZD89）作者简介：黄江平（1985—），男，博士生.研

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 7



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于句子语义距离的释义识别研究

基于句子语义距离的释义识别研究

相关文章

相关标签