欢迎来到天天文库
浏览记录
ID:50117903
大小:1.99 MB
页数:60页
时间:2020-03-06
《基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用刘敏2015年6月中图分类号:TQ028.1UDC分类号:540基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用作者姓名刘敏学院名称计算机学院指导教师黄河燕教授答辩委员会主席李侃教授申请学位工程硕士学科专业计算机技术学位授予单位北京理工大学论文答辩日期2015年6月AnApproachofMeasuringSentenceSimilarityBasedonWordVectoranditsApplicationtoExample-basedMachineTranslationCandidateName:MinLiuSc
2、hoolorDepartment:ComputerScience&TechnologyFacultyMentor:Prof.HeyanHuangChair,ThesisCommittee:Prof.KanLiDegreeApplied:MasterofEngineeringMajor:ComputerTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:June,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位
3、论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要目前计算机辅助翻译主要存在的问题是,相似度计算的方法存在很大的局限性,并且精度较低。尤其在实际的工程应用上,往往是采用基于词汇的相似度度量方法进行计算的,这在一定程度上限制了翻译记忆库能够发挥的功用。本文针对英汉句子的特点分别进行了相似度计算算法的设计和实现,将词向量这一技术引入到句子的相似度计算中。本文的主要工作包括:1、针对特定领
4、域,收集领域相关的训练语料,采用Google的word2vec进行英语和汉语的词向量模型构建;2、对传统的基于词汇的英语相似度计算方法进行改进,提出了基于词向量的Jaccard相似度与基于词向量的编辑距离结合的方法,相关实验结果显示算法改进取得了较明显的效果提升;3、根据汉语句子的特点,设计并实现汉语句子的相似度计算方法,提出了基于词向量的Jaccard相似度与基于词向量的依存句法相结合的相似度计算方法,实验结果显示效果比之传统的基于词的方法有较大提升;4、将相关英汉句子相似度计算算法以接口的形式封装,作为商品化软件华建IAT系统的相似度计算模块投入实际应用。关键词:计算机辅助翻译;
5、相似度计算;词向量I北京理工大学硕士学位论文AbstractInthelatestyears,thedemandoftranslationsishasbeenincreasinggreatly.Ontheonehand,althoughthetranditionalhumantranslationismoreaccurateandbehavesbetter,oneofitsdisadvantagesisitsinefficiency.Oneotherhand,thetranditionalmachinetranslationhasbeenimprovedalot,however,it
6、stranslationresultsarenotsosatisfactorytoreachtheactualuselevel.Inthiscase,EBMT(ExampleBasedMachineTranslation)emergesandbeomesoneofthemainlyusedtechnologysofcurrenttranslationindustrygradually.Nowadays,themainproblemofEBMTisthesentencesimilaritycomputingmeasuresarelimitedinmanywaysandtheaccura
7、cyisnotsosatisfactory.Especially,manysentencesimilaritycomputingmethodsareappliedtothetranslationengeneeringprojectsbasedonwordcompositionwhichistooinefficientforthelongandcomplexsentences.Thispaperfocusesonthesentencesimilarityco
此文档下载收益归作者所有