快速解码和最佳译码机器翻译

快速解码和最佳译码机器翻译

ID:8837045

大小:49.50 KB

页数:5页

时间:2018-04-09

快速解码和最佳译码机器翻译_第1页
快速解码和最佳译码机器翻译_第2页
快速解码和最佳译码机器翻译_第3页
快速解码和最佳译码机器翻译_第4页
快速解码和最佳译码机器翻译_第5页
资源描述:

《快速解码和最佳译码机器翻译》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、快速解码和最佳译码机器翻译乌尔里希Germann迈克尔Jahr,凯文Knight信息科学学院计算机科学系南加州大学斯坦福大学4676年海军,1001套房斯坦福,CA1001玛丽安德尔湾CA90292jahr@cs.stanford.edu{germann,骑士,marcukyamada}@isi.edu文摘良好的解码算法的成功是至关重要的任何统计机器翻译系统。译码器的工作是找到最有可能的翻译根据组以前学参数相结合(公式)。因为可能翻译的空间非常大,典型的解码算法只能够检查的一部分,因此冒险错过良好的解决方案。在本文中,我们比较传统的基于堆栈的速度和输出质量与两个新的解码器解码算法

2、:一种快速贪婪的解码器和缓慢但最佳译码器对解码为一个整数规划优化问题1介绍统计太系统,翻译法语句子成英语(说),分为三个部分:(1)语言模型(LM)分配一个概率P(e)任何英语字符串,(2)翻译模型(TM)分配一个概率P(fe)任何一对英语和法语字符串,和(3)译码器。解码器是一个前所未有的句子,并试图找到能最大化的P(ef),或者说最大化P(e)P(fe)。布朗etal。(1993)介绍了一系列的TMs基于逐字替换和重新排序,但不包括解码算法。如果源语言和目标语言局限于具有相同的词序(通过或通过选择合适的预处理),那么可以应用线性维特比算法(Tillmann。,1997)。如果

3、重新排序是有限的二叉树中的节点周围旋转,那么可以由最优译码high-polynomial算法(吴,1996)。对于任意word-reordering,解码问题是np完全(骑士,1999)。一个明智的策略(布朗etal.,1995;王Waibel,1997)是检查一个大的子集可能解码和选择。当然,可以错过这样一个好翻译。如果译码器返回ebut存在一些eP(ef)P(ef),这被称为一个搜索错误。小王和Waibel(1997)的话,很难知道一个搜索错误大白(只显示解码是次优的方法是实际生产higherscoring。因此,虽然解码是一个明确的优化任务,每个问题实例有一个正确的答案,很

4、难迅速想出好的答案。本文报告的测量速度,搜索错误,翻译质量的一个传统的堆栈解码器(内克,1969;布朗etal.,1995)和两个解码器。第一个是一个快速贪婪的解码器,第二个是一个缓慢的最优译码器基于通用数学编程技术。2IBM模型4在本文中,我们使用IBM模型4,它围绕着一个词对齐的概念在一对句子(参见图1)。一个字对齐分配一个家(英语)字符串的位置,每一个法语单词。如果两个法语单词排列相同的英语单词,然后,英语单词是说两个肥力。同样地,如果一个英语单词仍然unalignedto,那么生育零。图1中的词对齐的简称是一个假设的随机过程的一个英语字符串被转换成法语字符串。有几集的决策

5、。首先,每个英语单词都分配一个生育。这些作业都是随机的根据字符串表删除任何单词与生育能力为零,我们与生育两个重复的任何单词,等等。如果一个词有生育能力大于零,我们称之为肥沃。如果其生育率是大于一,我们称之为非常肥沃。新的字符串中的每个英语单词后,我们可能会增加生育一个看不见的英语NULL元素概率p(通常约为0.02)。NULL元素最终会产生“捏造”的法语单词。接下来,我们执行一个逐字替换的英语单词(包括零)法语单词,根据表中最后,我们交换法语单词。在交换模型4区分法语单词,头(最左边的法语单词产生特定的英语单词),nonheads(non-leftmost,生成只有非常肥沃的英语

6、单词),和NULL-generated。头。被分配一个法国的一个英语单词字符串位置基于位置分配给前面的英语单词。如果一个英语单词翻译成法语位置j,然后法国头的话随机放置在法国k与失真probabilitywhere“类”是指自动确定为法语和英语单词类词汇项。这相对偏移k-j鼓励相邻的英语单词转化为相邻法语单词。如果是不孕,那么来自,等。如果非常肥沃,j的平均位置的法语翻译Non-heads。如果英语单词的头ej放在法国地位,然后第一个non-head被放在法国k位置根据另一个表(>j)接下来non-head放置在位置问概率NULL-generated。头和non-heads放置后

7、,NULL-generated的话有无数随机到剩下的空槽。如果有NULL-generated单词,然后用概率选择任何安置计划这些随机决定,从e,导致不同的选择f和f的对齐ee。我们映射到一个特定的<<对与概率:×符号表示生育因素,翻译,头排列,non-head排列,null-fertility,和null-translationprobabilities.1吗3定义的问题如果我们观察一个新的句子f,那么一个最优译码器将搜索一个最大化的eP(e

8、f)P(e)·P(f

9、e)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。