统计机器翻译领域自适应的研究.pdf

统计机器翻译领域自适应的研究.pdf

ID:51908267

大小:5.99 MB

页数:132页

时间:2020-03-18

统计机器翻译领域自适应的研究.pdf_第1页
统计机器翻译领域自适应的研究.pdf_第2页
统计机器翻译领域自适应的研究.pdf_第3页
统计机器翻译领域自适应的研究.pdf_第4页
统计机器翻译领域自适应的研究.pdf_第5页
资源描述:

《统计机器翻译领域自适应的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、博博博士士士学学学位位位论论论文文文统计机器翻译领域自适应的研究DOMAINADAPTATIONFORSTATISTICALMACHINETRANSLATION崔崔崔磊磊磊哈哈哈尔尔尔滨滨滨工工工业业业大大大学学学2014年年年12月月月国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工工工学学学博博博士士士学学学位位位论论论文文文统计机器翻译领域自适应的研究博士研究生:崔磊导师:周明教授申请学位:工学博士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩

2、日期:2014年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C:681.37DissertationfortheDoctoralDegreeinEngineeringDOMAINADAPTATIONFORSTATISTICALMACHINETRANSLATIONCandidate:LeiCuiSupervisor:Prof.MingZhouAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:Compute

3、rScienceandTechnologyAliation:SchoolofComputerScienceandTechnologyDateofDefence:December,2014Degree-Conferring-Institution:HarbinInstituteofTechnology摘要摘要统计机器翻译的准确性在很大程度上取决于翻译建模的质量,而翻译建模往往依赖于数据的分布。通常上,大多数机器学习任务会假设训练数据和测试数据是独立同分布的,然而在实际的系统中,这种假设未必成立。因此,

4、为了达到性能的最优,需要根据数据分布的情况对模型进行适当的迁移。近年来,领域自适应技术成为统计机器翻译研究中的一个热点话题,目的在于解决训练数据和测试数据的领域分布不一致问题。通过进行领域自适应,使得模型更符合测试数据分布,进而得到更好的翻译结果。本文主要针对统计机器翻译领域自适应中四种问题提出相应的研究方法。第一,针对统计机器翻译领域自适应的数据获取和加工问题,提出一种基于图随机游走的领域自适应数据处理方法。统计机器翻译的领域自适应研究需要大量的领域训练数据,这些数据的质量对翻译系统性能有很大影响,

5、这是因为低质量的训练数据会导致错误的翻译知识进而影响翻译建模的质量。传统的数据处理方法通常利用有监督学习策略过滤低质量数据,然而这种方法需要大量的标注数据才能实现,这在特定领域往往是不存在的。为了减少对标注数据的依赖,我们提出一种无监督的图随机游走方法进行数据去噪,这种方法基于高质量训练句对和高质量翻译规则能够互相影响的假设,利用二者的互推荐机制进行建模。实验结果表明这种方法可以有效地对训练数据进行去噪,从而提高了机器翻译性能。第二,针对受限的多领域自适应问题,提出一种基于多任务学习的领域自适应方法。

6、传统统计机器翻译领域自适应的研究通常是将模型迁移至一个具体的领域,然而,这种模型迁移往往无法利用不同领域中的共性翻译知识,因而无法做到同时提高多个领域的翻译性能。基于多任务学习的方法利用了多任务学习机制进行多领域的自动模型迁移,其中为每个领域独自学习领域内模型,不同领域共享同一个通用模型。通过多任务学习的方法,这些模型可以进行联合调参,使得模型学习更为准确。因此,这种方法可以显著一致地提高多个领域的翻译准确性,并且优于独立进行模型迁移的方法。第三,针对开放领域自适应问题,提出一种基于深度学习的领域自适

7、应方法。基于多任务学习的领域自适应方法仅仅考虑句子内部的上下文,无法利用更广泛的篇章级别上下文语境信息。我们进一步提出基于深度学习的领域自适应方法,通过利用大量的话题相关单语文本的信息,使用神经网络的结构学-I-哈尔滨工业大学工学博士学位论文习双语对照数据的话题表示。在翻译过程中,将话题表示附着至每条翻译规则上,这样在翻译解码时,就可以通过相似度量来选择和源语言话题相似的翻译规则。相比于基准系统和其他话题表示学习的方法,基于深度学习的话题表示能够显著地提高机器翻译系统的质量。第四,针对在线实时获取领域

8、翻译知识进行开放领域自适应的问题,提出一种基于互联网实时检索的领域自适应方法。当今的统计机器翻译系统通常依赖大规模互联网抓取的离线数据进行翻译模型和语言模型的训练。相比较于传统的方法,我们创新性地提出一种将机器翻译看作是信息检索问题,通过实时互联网检索获取最新的翻译知识。这种方法利用实时检索获取互联网中出现的最新数据,并抽取最新的短语级别翻译知识并生成句子级别翻译结果。这种基于互联网实时检索的机器翻译技术能够很好地利用海量数据解决特定领域的未登录词翻译问

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。