欢迎来到天天文库
浏览记录
ID:5263973
大小:1.10 MB
页数:7页
时间:2017-12-07
《基于双语合成语义的翻译相似度模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、北京大学学报(自然科学版)第51卷第2期2015年3月ActaScientiarumNaturaliumUniversitatisPekinensis,Vo1.51,No.2(Mar.2Ol5)doi:10.13209/j.0479-8023.2015.031基于双语合成语义的翻译相似度模型王超超熊德意张民苏州大学计算机科学与技术学院,苏州215006;十通信作者,E—mail:dyxiong@suda.edu.cn摘要提出基于双语合成语义的翻译相似度模型,通过在翻译过程中引入双语语义相似度特征提高翻译性能。首先利用分布式方法分别在源端和目标端获取短语的单语合成语义向
2、量,然后利用神经网络将它们映射到同一语义空间,获得双语合成语义向量。在该语义空间,计算源语言短语和对应的目标语言短语之间基于合成语义向量的翻译相似度,将其作为一个新特征加入解码器。在汉英翻译NIST06和NIST08测试数据集上,相较于基准系统,基于双语合成语义的翻译相似度模型获得0.56和0.42BLEU值的显著性提高。关键词语义合成;机器翻译;分布式表示;神经网络中图分类号TP391TranslationSimilarityModelBasedonBilingualCompositionalSemanticsWANGChaochao,XIONGDeyit,ZHAN
3、GMinSchoolofComputerScienceandTechnology,SoochowUniversity,Suzhou215006;十Correspondingauthor,E-mail:dyxiong@suda.edu.cnAbstraetTheauthorsproposeatranslationsimilaritymodelbasedonbilingualcompositionalsemanticstointegratethebilingualsemanticsimilarityfeatureintodecodingprocesstoimprovetr
4、anslationquality.Intheproposedmodel,monolingualcompositionalvectorsforphrasesareobtainedatthesourceandtargetsiderespectivelyusingdistributionalapproach.Thesemonolingualvectorsarethenprojectedontothesamesemanticspaceandthereforetransformedintobilingualcompositionalvectors.Baseonthisseman
5、ticspace.translationsimilaritybetweensourcephrasesandtheircorrespondingtargetphrasesiscalculated.Thesimilaritiesareintegratedintothedecoderasanewfeature.ExperimentsonChinese—to—EnglishNIST06andNIST08testsetsshowthattheproposedmodelsignificantlyoutperformsthebaselineby0.56and0.42BLEUpoin
6、tsrespectively.Keywordssemanticcompositionality;machinetranslation;distributedrepresentations;neuralnetwork统计机器翻译作为人工智能领域的一个重要分但仍然存在如下不足:1)对于语义信息的研究仍然支,经历了基于词、短语和句法的发展阶段。目前,局限于单词层面;2)采用联合优化模型(即在双语语越来越多的研究人员开始探索基于语义信息的统计料库中同时训练语义向量),过程繁琐且训练时间机器翻译方法。Zou等【lJ提出基于联合优化模型,较长;3)相对于非线性映射方法,线性映射方
7、法在在双语语料库中同时训练,得到双语的单词语义向向量值传递等方面的准确性相对较弱,在实际映射量。Mikolov等【]提出基于神经网络的方法,分别中可能会丢失源端语义向量所包含的语义信息[3】。获取源端和目标端的单词语义向量,然后采用线性本文提出基于双语合成语义的翻译相似度模映射方法,将源端单词语义向量映射到目标端所在型,不仅将语义信息从单词层延伸到短语层,而且的语义空间。采用非线性映射方法,将源端语义向量映射到目标上述工作虽然在一定程度上提升了翻译性能,端语义空间,有效地解决了上述问题。合成语义的国家自然科学基金(61373095)和江苏省自然科学基
此文档下载收益归作者所有