欢迎来到天天文库
浏览记录
ID:16037846
大小:452.50 KB
页数:104页
时间:2018-08-07
《北京大学博士论文开题报告》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于模板的统计翻译模型研究及汉英机器翻译系统实现刘群liuqun@ict.ac.cn北京大学计算语言学研究所博士论文开题报告目录引言综述研究思路实验方案总结引言本文的主要工作提出一个基于模板的统计翻译模型给出一个汉英机器翻译系统的实现方案本文的主要创新给出了转换模板的定义及模板抽取算法提出模板角色概念并给出三种统计翻译模型给出该模型的参数估计算法目录引言综述机器翻译的范式统计机器翻译综述(三种主要的方法)统计机器翻译小结研究思路实验方案总结机器翻译的范式源语言文本(如汉语)目标语言文本(如英语)中间语言源语言深层表示目标
2、语言深层表示直接翻译法转换法中间语言法统计机器翻译方法的界定区别于规则方法:利用语料库作为知识来源无需人工编写规则区别于实例方法或模板方法:建立完整的统计模型必须为整个翻译过程,而不是其中某个局部,建立统计模型统计机器翻译的分类基于平行概率语法的统计机器翻译模型基于信源信道思想的统计机器翻译模型IBM的PeterBrown等人首先提出目前影响最大几乎成为统计机器翻译的同义词基于最大熵的统计机器翻译模型源于基于特征的自然语言理解Och提出,获ACL2002最佳论文统计机器翻译的优缺点优点无需人工编写规则,利用语料库直接训练得
3、到机器翻译系统;(但可以使用语言资源)系统开发周期短;鲁棒性好;译文质量好;缺点时空开销大;数据稀疏问题严重;对语料库依赖性强;算法研究不成熟。基于平行概率语法的统计机器翻译模型基本思想两种语言建立一套平行的语法规则,规则一一对应两套规则服从同样的概率分布句法分析的过程决定了生成的过程主要模型Alshawi的基于HeadTransducer的MT模型吴德恺的InverseTransductionGrammar(ITG)Takeda的Pattern-basedCFGforMTHeadTransducerMT(1)HeadTr
4、ansducer(中心词转录机)是一种DefiniteStateAutomata(有限状态自动机)与一般的有限状态识别器的区别:每一条边上不仅有输入,而且有输出;不是从左至右输入,而是从中心词往两边输入HeadTransducerMT(2)a:a0:00:0b:ba:a-1:+1b:b-1:+1例子:一个可以将任何{a,b}组成的串倒置的HeadTransducerHeadTransducerMT(3)所有的语言知识(词典、规则)都表现为HeadTransducer;HeadTransducer可以嵌套:一个HeadTran
5、sducer的边是另一个的识别结果;纯统计的训练方法;对齐的结果是依存树:不使用词性和短语类标记;Chart句法分析器。InversionTransductionGrammar(1)比赛星期三开始。ThegamewillstartonWednesday。InversionTransductionGrammar(2)规则形式:A→[BC]A→A→x/y产生源语言和目标语言串分别为:BCBC:词序相同BCCB:词序交换xy:词典Pattern-basedCFGforMT(1)每个翻译模板由一个源语言上下文无关规则和一个目
6、标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成;举例:S:2→NP:1岁:MP:2了────────────S:be→NP:1beyear:NP:2oldPattern-basedCFGforMT(2)中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词;链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号
7、建立对应关系,具有对应关系的非终结符互为翻译。信源-信道模型假设目标语言文本T是由一段源语言文本S经过某种奇怪的编码得到的,那么翻译的目标就是要将T还原成S,这也就是就是一个解码的过程。注意,源语言S是噪声信道的输入语言,目标语言T是噪声信道的输出语言,与整个机器翻译系统的源语言和目标语言刚好相反。SP(S)P(T|S)T统计机器翻译基本方程式P.Brown称上式为统计机器翻译基本方程式语言模型:P(S)翻译模型:P(T
8、S)语言模型反映“S像一个句子”的程度:流利度翻译模型反映“T像S”的程度:忠实度联合使用两个模型效果好
9、于单独使用翻译模型,因为后者容易导致一些不好的译文。语言模型与翻译模型考虑汉语动词“打”的翻译:有几十种对应的英语词译文:打人,打饭,打鱼,打毛衣,打猎,打草稿,……如果直接采用翻译模型,就需要根据上下文建立复杂的上下文条件概率模型如果采用信源-信道思想,只要建立简单的翻译模型,可以同样达
此文档下载收益归作者所有