基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用.pdf

基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用.pdf

ID:50117903

大小:1.99 MB

页数:60页

时间:2020-03-06

基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用.pdf_第1页
基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用.pdf_第2页
基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用.pdf_第3页
基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用.pdf_第4页
基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用.pdf_第5页
资源描述:

《基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用刘敏2015年6月中图分类号:TQ028.1UDC分类号:540基于词向量的句子相似度计算及其在基于实例的机器翻译中的应用作者姓名刘敏学院名称计算机学院指导教师黄河燕教授答辩委员会主席李侃教授申请学位工程硕士学科专业计算机技术学位授予单位北京理工大学论文答辩日期2015年6月AnApproachofMeasuringSentenceSimilarityBasedonWordVectoranditsApplicationtoExample-basedMachineTranslationCandidateName:MinLiuSc

2、hoolorDepartment:ComputerScience&TechnologyFacultyMentor:Prof.HeyanHuangChair,ThesisCommittee:Prof.KanLiDegreeApplied:MasterofEngineeringMajor:ComputerTechnologyDegreeby:BeijingInstituteofTechnologyTheDateofDefence:June,2015研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。尽我所知,文中除特别标注和致谢的地方外,学位

3、论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。特此申明。签名:日期:北京理工大学硕士学位论文摘要目前计算机辅助翻译主要存在的问题是,相似度计算的方法存在很大的局限性,并且精度较低。尤其在实际的工程应用上,往往是采用基于词汇的相似度度量方法进行计算的,这在一定程度上限制了翻译记忆库能够发挥的功用。本文针对英汉句子的特点分别进行了相似度计算算法的设计和实现,将词向量这一技术引入到句子的相似度计算中。本文的主要工作包括:1、针对特定领

4、域,收集领域相关的训练语料,采用Google的word2vec进行英语和汉语的词向量模型构建;2、对传统的基于词汇的英语相似度计算方法进行改进,提出了基于词向量的Jaccard相似度与基于词向量的编辑距离结合的方法,相关实验结果显示算法改进取得了较明显的效果提升;3、根据汉语句子的特点,设计并实现汉语句子的相似度计算方法,提出了基于词向量的Jaccard相似度与基于词向量的依存句法相结合的相似度计算方法,实验结果显示效果比之传统的基于词的方法有较大提升;4、将相关英汉句子相似度计算算法以接口的形式封装,作为商品化软件华建IAT系统的相似度计算模块投入实际应用。关键词:计算机辅助翻译;

5、相似度计算;词向量I北京理工大学硕士学位论文AbstractInthelatestyears,thedemandoftranslationsishasbeenincreasinggreatly.Ontheonehand,althoughthetranditionalhumantranslationismoreaccurateandbehavesbetter,oneofitsdisadvantagesisitsinefficiency.Oneotherhand,thetranditionalmachinetranslationhasbeenimprovedalot,however,it

6、stranslationresultsarenotsosatisfactorytoreachtheactualuselevel.Inthiscase,EBMT(ExampleBasedMachineTranslation)emergesandbeomesoneofthemainlyusedtechnologysofcurrenttranslationindustrygradually.Nowadays,themainproblemofEBMTisthesentencesimilaritycomputingmeasuresarelimitedinmanywaysandtheaccura

7、cyisnotsosatisfactory.Especially,manysentencesimilaritycomputingmethodsareappliedtothetranslationengeneeringprojectsbasedonwordcompositionwhichistooinefficientforthelongandcomplexsentences.Thispaperfocusesonthesentencesimilarityco

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。