资源描述:
《机器翻译研究新进展.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、《当代语言学》第11卷2009年第2期147-158页,北京3机器翻译研究新进展刘群中国科学院计算技术研究所提要本文介绍近年来国际机器翻译研究领域取得的一些进展,着重介绍统计机器翻译方面取得的进展。具体包括:统计机器翻译的原理和特点、统计机器翻译的发展历程和现状、基于词的统计机器翻译方法、基于短语的统计机器翻译方法、基于句法的统计机器翻译方法等。最后对机器翻译研究今后的发展进行了讨论和展望。关键词统计机器翻译基于词的方法基于短语的方法基于句法的方法1.概述机器翻译的发展,经历了一个曲折的过程。按照冯志伟(1994,1996)的说法,到1980年代,机器翻译研究
2、经历了草创期、萧条期、复苏期、繁荣期等几个阶段。草创期以1954年在美国乔治敦大学用IBM计算机进行的首次机器翻译实验为标志,这时的机器翻译方法还比较简单,基本上采用的是单纯的查词典和词频统计等方法,笔者这里称之为朴素的统计方法。而1964年的ALPAC报告将全世界的机器翻译热潮打入了冷宫。在1970年代,随着Chomsky语言学的兴起和人工智能研究的发展,人们普遍认为要实现机器翻译必须对语言进行理解,在这种背景下,基于规则的机器翻译方法开始发展起来。进入1980年代以后,机器翻译进入繁荣期,基于规则的机器翻译方法逐步成熟,市场上出现了很多机器翻译系统。但这种
3、繁荣并没有持续下去。1980年代末期到1990年代,人们发现基于规则的机器翻译系统性能很难进一步提高,面向社会生活中使用的真实语言的时候,机器翻译系统几乎无法给出有用的译文。笔者把这个阶段称为平台期。也正是这个阶段,基于语料库的机器翻译方法开始被提出来并取得了一些进展,这包括基于实例的方法和基于统计的方法。而从1999年开始到现在,统计机器翻译方法取得了突破性的发展,并且现在仍在迅速发展之中。这个阶段可以称为再度繁荣期。本文着重介绍近年来统计机器翻译的发展状况以及取得的一些新进展。1.1统计机器翻译的基本原理和特点在统计机器翻译中,“翻译”被理解为一个随机事件
4、。也就是说,将一个源语言句子翻译成目标语言句子的过程是完全随机的。更一般地说,可以认为,任意目标语言句子E都可以是任意源语言句子F的译文,只是概率不同而已。这样,我们就可以定义一个概率P(E
5、F),用于描述将F翻译成E的概率。这个概率被称为翻译模型。翻译模型要满足归一化条3本文得到国家高技术研究开发计划(863)项目课题(2006AA010108)和国家自然科学基金项目(60736014和60573188)资助。本刊网址:http://www.ddyyx.com147件:也就是说,在F给定的情况下,对于目标语言中所有的句子E,这个概率之和为1。这样,机器翻译问
6、题就可以被分解为三个问题:建模:对P(E
7、F)进行定义,给出其数学描述。这是统计机器翻译的核心问题。训练问题和解码问题的解决都是由统计翻译的模型决定的。训练:利用语料库训练P(E
8、F)的参数。解码:就是翻译。对于给定的句子F,在译文空间中,搜索概率P(E
9、F)最大的句子E。我们可以看到,与传统的基于规则或者基于实例的机器翻译方法相比,统计机器翻译理论上具有以下特点:(1)有严格的数学理论做基础。所有翻译知识,包括词典、规则等等,都以概率的形式呈现,也就是说表现为某种参数。训练过程就是为了得到这些参数,而解码过程就是利用这些参数去搜索最好的译文。在解码过程中,只
10、需要使用这些参数,而不需要再去访问原始的语料库。(2)不需要人工构造的翻译知识(包括规则和词典),所有语言知识都是从语料库中自动获取。这并不是说,统计机器翻译不需要翻译知识,而是说所有这些翻译知识都是从语料库中自动获取的。目前,统计机器翻译所使用的语料库一般都是双语句子对齐的语料库。语料库的规模通常在几万句对到几百万句对不等。几万句对的语料库通常只能适用于极小的翻译领域,或者仅仅在实验中用来验证某种新的理论或者方法。(3)翻译的过程被看成是一个最优解的搜索过程。系统从巨大的可能译文空间中寻找最优的译文,搜索的算法采用人工智能中的一些成熟算法。由于无需人工编写和
11、调试词典及规则,使得统计机器翻译系统在开发和应用上也出现一些明显的特点和优势:(1)机器翻译系统开发的人工成本低、开发周期短;(2)可以迅速迁移到新的语种;(3)可以迅速迁移到新的领域。1.2统计机器翻译的发展历程统计机器翻译的思想,最早是IBM的研究人员在1980年代末和1990年代初提出来的。IBM的研究人员当时使用IBM最先进的工作站开展了统计机器翻译研究,用短短几年时间、在没有采用任何人工构造的语言知识的情况下,仅仅利用双语语料库,就构造了一个跟Sys2tran公司历时几十年时间开发出来的法英机器翻译系统相媲美的系统,引起了研究人员的广泛关注。但由于当
12、时计算能力的限制,普通研究人员很难得到