欢迎来到天天文库
浏览记录
ID:35183644
大小:6.07 MB
页数:68页
时间:2019-03-21
《统计机器翻译领域自适应方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、学校代码:10285学号:201342巧035例A爭■《'SOGCHOWUNIVERSITY:祕"统计机器翻译领域自适应方法研究PomainAdaptatioafbrStatisticalMachineTranslation^Bi‘.:.:二.….…-.....-.:;.硏究生姓名刘臭指导教师姓名姚建民洪宇专业名称计结机科学与技术硏究方向自然语言处理所在院部计算机科学与技术学院论文提交日期2016年5月^苏州大学学位论文使用授权声明本人完全了解苏州大学舆于收集、傑存和使用学位论文的
2、规定,良P:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸--?致、质论文的内容相。苏州大学有权向国家图书馆中国社骑院文献、().信息情报中也中国科学技术信息研究所資刃方数据电子出版社.中国学术期刊(光蟲版)化子杂志社送贵本学位论文的复印件和电子义挡,;允许论文被查阀和借隅可W采用殻印、缩印或其他复制手段保存和汇编学位论文-可封将学位论文的命部或部分内容编入有关数据库进巧检索。涉密论文〇解密后适用本规定=本学位论义属在__月年非涉密拖义s/、I9勺:路文作者签名;非日期。巧,心导师盤名;円期;>?统计机器翻译
3、领域自适应方法研究中文摘要统计机器翻译领域自适应方法研究中文摘要统计机器翻译是以大规模双语平行语料为基础,充分利用计算机较强的计算能力,通过统计分析,构建翻译模型、语言模型、调序模型,进而利用此模型进行翻译的自动化技术。目前,统计机器翻译系统的性能很大程度上依赖于训练语料的规模和质量。训练语料的规模越大、质量越好,则有效的翻译知识越多,涵盖的语言现象也越充分,从而有助于提升系统中模型的训练效果。然而,当面向特定领域的翻译任务时,机器翻译系统的性能往往偏低。原因在于通用领域翻译系统无法针对特定领域的翻译知识、句子表达方式、语言风格做出自适应调整。基于此,本文集中研究统计机器翻译领域自适
4、应问题,并提出解决此类问题的新方法,主要研究内容具体归纳如下:1)特定领域平行语料库构建这一研究旨在从Web上自动挖掘特定领域平行资源,构建目标领域平行语料库。在大规模Web数据中,特定领域的双语知识往往集中出现于所属领域的双语网站内,并以较为规范的结构化数据形式一一对照,有助于特定领域双语知识的获取和组织。本文针对双语网站的识别和定位,提出一种基于全局搜索和局部分类的特定领域双语网站识别方法。以电子器件领域为目标,采用全局搜索方法获得该领域双语网站18,944个,随机抽取其中3,000个网站进行人工标注,在标注语料上,采用局部分类方法识别该领域双语网站的性能(F值)达到85.19%
5、。在此基础上,利用识别出的目标领域双语网站中的双语句对,扩充特定领域机器翻译系统的训练集进行实验。实验结果表明,相同测试集下,特定领域机器翻译系统的性能获得显著提升,验证了本文所提自动识别特定领域双语网站方法的有效性。2)领域相关的双语句对选择本文从句对领域相关性的角度,在大规模通用领域平行语料库中选择和扩充面向特定领域翻译任务的双语资源,借以提升特定领域机器翻译系统的性能。句对的领域相关性表示其与目标领域的相似程度,领域相关性越大说明句对属于目标领域的可能I中文摘要统计机器翻译领域自适应方法研究性越大,对于特定领域翻译任务贡献越大。本文提出一种基于双语主题模型的领域相关句对选择方法
6、,其核心思想为:利用双语主题模型挖掘句对中隐含的浅层语义信息,并在主题与领域之间构建词级和句子级映射,进而更好地估计句对的领域相关性。实验结果显示,利用本文所提方法选择双语句对并训练翻译系统,相比于基准系统,在测试集上平均提升1.64个BLEU值(%)。3)融合领域特征的翻译模型优化上述研究内容为统计机器翻译领域自适应方法的研究提供了较好的思路。本文这一部分研究,尝试从模型的角度,探索统计机器翻译的领域自适应问题。此研究致力于构建短语对或是层次短语对之间,在特定领域中的互译度评价标准,即在模型的角度考虑领域性影响。最终,利用此特征动态调整系统中翻译模型的参数,使之更好地适应目标领域,
7、获得翻译性能的提升。本文提出一种基于卷积神经网络的翻译模型优化方法,该方法首先借助卷积神经网络估计短语所在双语句对的领域相关性,其次利用此相关性重新估计短语对的互译概率,最终通过线性融合通用领域和特定领域翻译概率,进一步优化面向特定领域翻译任务的系统性能。实验结果表明,相比于基准系统,利用此方法优化后的系统在测试集上平均提升2.9个BLEU值(%)。综上所述,本文针对统计机器翻译的领域自适应问题,在语料库构建、领域相关的句对选择和翻译模型优化三个方面进行探
此文档下载收益归作者所有