基于词向量的句子相似度计算及其应用研究

基于词向量的句子相似度计算及其应用研究

ID:31359745

大小:116.50 KB

页数:10页

时间:2019-01-09

基于词向量的句子相似度计算及其应用研究_第1页
基于词向量的句子相似度计算及其应用研究_第2页
基于词向量的句子相似度计算及其应用研究_第3页
基于词向量的句子相似度计算及其应用研究_第4页
基于词向量的句子相似度计算及其应用研究_第5页
资源描述:

《基于词向量的句子相似度计算及其应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于词向量的句子相似度计算及其应用研究  摘要:目前计算机辅助翻译在相似度计算方面存在很大的局限性,精度较低。针对特定领域,收集领域相关的训练语料,采用Google的word2vec进行英语和汉语的词向量模型构建,设计并实现汉语句子的相似度计算方法,提出基于词向量Jaccard相似度与基于词向量依存句法相结合的相似度计算方法,实验结果显示其效果比传统方法有较大提升。最后,将相关英汉句子相似度算法以接口的形式封装,作为商品化软件华建IAT系统的相似度计算模块投入实际应用。  关键词:计算机辅助翻译;相似度计

2、算;词向量;IAT系统  中图分类号:TN711?34;TM417文献标识码:A文章编号:1004?373X(2016)13?0099?04  Abstract:Currently,thecomputeraidedtranslationhasgreatlimitationonsimilaritycalculation,anditsaccuracyislow.Forthespecificfield,thetrainingcorpusaboutthefieldwascollected,andthewordve

3、ctormodelofEnglishandChinesewasconstructedbyusingword2vecdevelopedbyGoogletodesignandimplementthesimilaritycalculationmethodofChinesesentences.ThesimilaritycalculationmethodofcombiningwordvectorJaccardsimilaritywithwordvectordependentsyntaxisproposed.Thee

4、xperimentresultsshowthateffectoftheproposedmethodhasmore10improvementthanthatofthetraditionalmethod.ThesimilarityalgorithmofrelevantEnglishandChinesesentencesispackagedbymeansofinterfaceform.ThesimilaritycalculationmoduleofHuajianIATsystemwasputintopracti

5、calapplicationasacommoditysoftware.  Keywords:computeraidedtranslation;similaritycalculation;wordvector;IATsystem  近年来,机器翻译的需求量越来越大。从学术文献翻译到搜索引擎跨语言检索,机器翻译都呈现出巨大的需求空间。但是传统的机器翻译一直都存在较大的问题,就是准确率过低。通过前期调查,现有的机器翻译无法满足实际需求,同时随着“大数据”时代的到来,越来越多的学者将目光转向了计算机辅助翻译[1?

6、2]。  计算机的翻译结果仅仅作为一个辅助性的参考,最终的结果由使用者根据候选结果的好坏进行修改取舍,实例语料库可以结合具体领域进行分门别类的应用,使得其翻译效果进一步提升,从而更加契合用户的需要。由于领域性的差异,尤其是专业术语较多的时候,这一优点在特定领域的翻译中显得更加突出[3]。  1计算机辅助翻译及句子相似度计算  1.1计算机辅助翻译技术10  计算机辅助翻译系统涉及到的技术构成如图1所示。在翻译系统的整体构成上,相似度计算模块是计算机辅助系统的核心部分[4]。它主要完成输入句子与翻译记忆库的

7、匹配并为用户提供参考功能。而翻译记忆库则是计算机辅助翻译的基础构成,它主要用来对已翻译的句子进行存储和检索。  2基于词向量的句子相似度计算算法  2.1英语句子相似度计算算法设计  在进行改进的华建IAT系统上,英语句子的原相似度计算算法是基于共现词汇相似度即Jaccard相似度和编辑距离相结合的方式设计的[6]。将词向量引入到相似度计算上,本文设计的英语相似度计算算法由两部分构成:基于词向量的Jaccard相似度计算算法;基于词向量和编辑距离的相似度计算算法。  2.1.1基于词向量的Jaccard相

8、似度计算算法  式(5)中用来计算两个词对应的词向量和的余弦相似度,即为词向量的维度。式(6)中,分别是用户当前输入的句子和系统从翻译记忆库中检索到的句子。是计算句子中所有词对应的词向量与对应的词向量的余弦相似度中的最大值。参数用来调整两个词向量之间余弦相似度的放大系数,因为根据不同语料训练出来的词向量模型是不同的,其计算结果也就会有一定的浮动,可以根据得到的词向量的不同进行设定调整。为了防止放大系数的放大效果超出实际表示范围

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。