欢迎来到天天文库
浏览记录
ID:34390041
大小:690.05 KB
页数:133页
时间:2019-03-05
《中国科学院研究生院 博士学位论文》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、分类号TP3密级UDC编号中国科学院研究生院博士学位论文树到串统计翻译模型研究刘洋指导教师林守勋研究员中国科学院计算技术研究所申请学位级别工学博士学科专业名称计算机应用技术论文提交日期2007年4月论文答辩日期2007年6月培养单位中国科学院计算技术研究所学位授予单位中国科学院研究生院答辩委员会主席声明我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。作者签名:日期:论文版权使用授权书本人授权中国科学院计算技
2、术研究所可以保留并向国家有关部门或机构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本论文。(保密论文在解密后适用本授权书。)作者签名:导师签名:日期:树到串统计翻译模型研究:摘要摘要近十年来,统计机器翻译取得了很大的成功。基于短语的翻译模型超越了最初的基于词的翻译模型,在近期的机器翻译评测中屡次取得领先成绩,成为统计机器翻译的主流技术。然而,基于短语的模型的一大缺点是难以处理短语间的重排序。因此,能将句法信息引入翻译的基于句法的翻译模型成为当前的研究热点。本文重点研究了统计机器翻译中的两个
3、关键问题:词语对齐和翻译模型。词语对齐对统计机器翻译而言至关重要,因为经过词语对齐的语料是极有价值的翻译知识源。本文为词语对齐提出对数线性模型框架。在此框架下,所有的知识源被视作依赖于源语言句子、目标语言句子以及可能的其他变量的特征函数。对数线性模型使统计对齐模型易于扩展,方便加入更多的语言学信息,从而能同时处理与具体语言相关和不相关的语言现象。本文讨论了框架的形式化定义、特征函数、最小错误率训练、搜索算法以及n-best列表生成等问题。我们在三个词语对齐评测的数据集(包含五个语言对)上对词语对齐的对数线性模型进行评价。实验表明,对数线性模型超过了绝大多数参加评测的系统。翻译模型设计是统计机器
4、翻译的核心问题。本文提出三个基于句法的树到串翻译模型:1.嵌入句法树的基于短语的翻译模型,简称模型1。此模型在传统的基于短语的模型的基础上以隐变量的方式嵌入句法树,从而可以利用句法信息指导短语的切分、重排序和翻译。模型1只使用句法双语短语,搜索空间比传统模型小。我们的主要创新点是提出了树节点重排序,实现了利用句法信息指导短语重排序。2.基于树到串对齐模板的翻译模型,简称模型2。此模型在模型1的基础上提出了树到串对齐模板。树到串对齐模板描述了源语言句法树和目标语言串之间的对齐关系。它既能生成终结符又能生成非终结符,既能执行局部的重排序又能执行全局的重排序。3.融入森林到串规则的树到串翻译模型,简
5、称模型3。此模型对模型2进行扩充,引入森林到串翻译规则,通过描述森林和串之间的对齐关系来捕获非句法短语,使表达能力得到进一步提升。为了将森林到串翻译规则融入到树到串翻译模型中,我们引入辅助规则来提供泛化层。我们将这三个基于句法的翻译模型与国际学术界最常用的基于短语的翻译系统Pharaoh做对比。在2005年NIST汉译英机器翻译评测测试集上,模型1的翻译性能接近基准系统,模型2和模型3均明显超过了基准系统。关键词:统计翻译模型;词语对齐;树节点重排序;树到串对齐模板;森林到串翻译规则I树到串统计翻译模型研究:AbstractResearchonTree-to-StringStatistical
6、TranslationModelsYangLiu(ComputerAppliedTechnology)DirectedbyShouxunLinStatisticalmachinetranslation(SMT)hasshownconsiderablesuccessoverthepastdecade.Phrase-basedtranslationmodels,whichgobeyondtheoriginalword-basedmodels,havebeensuggestedtobethestateoftheartbyrecentempiricalevaluations.However,onema
7、jorproblemwithphrase-basedmodelsistheirincapabilityofrobustphrase-levelreordering.Asaresult,syntax-basedmodelsthatincorporatesyntaxintotranslationaredrawingincreasinginterestsfromSMTresearchers.Inthis
此文档下载收益归作者所有