基于微引擎流水线的机器翻译系统结构

基于微引擎流水线的机器翻译系统结构

ID:6395692

大小:563.50 KB

页数:13页

时间:2018-01-12

基于微引擎流水线的机器翻译系统结构_第1页
基于微引擎流水线的机器翻译系统结构_第2页
基于微引擎流水线的机器翻译系统结构_第3页
基于微引擎流水线的机器翻译系统结构_第4页
基于微引擎流水线的机器翻译系统结构_第5页
资源描述:

《基于微引擎流水线的机器翻译系统结构》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于微引擎流水线的机器翻译系统结构本文工作受国家重点基础研究计划(973)支持,项目编号是G1998030507-4和G1998030510。刘群中国科学院计算技术研究所,北京100080北京大学计算语言学研究所,北京100871liuqun@ict.ac.cn摘要:本文比较了现有各种多引擎机器翻译方法的优缺点,提出了基于微引擎流水线的机器翻译系统结构,详细介绍了有关的数据结构和算法。这种结构的优点在于在部件层次上实现多种算法的并存,通过对微引擎的增删和流水线结构的调整可以方便地尝试各种机器翻译

2、方法的组合,而不需要修改系统的整体算法。文章最后介绍了这种机器翻译系统结构在面向新闻领域的汉英机器翻译系统中的具体实现,给出了实验数据,并进行了总结。摘要:多引擎机器翻译微引擎流水线1引言由于各种不同的机器翻译方法各有特长,也各有缺点,没有哪一种单一的机器翻译方法能够达到理想的效果,因此采用多引擎的方法,希望各种方法能够互补,以达到总体效果的最优,就成为了一种自然的选择。目前多引擎的机器翻译目前已经被广泛采用,而实践证明这种方法也确实有效。目前常用的多引擎机器翻译系统主要有三种结果形式,我们称之

3、为并行的结构、串行的结构和混合的结构。在并行结构的多引擎机器翻译系统中,各个翻译引擎各自独立地对输入的文本进行翻译,并将翻译的结果放到一个统一的数据结构中,最后由一个译文选择模块选择出最好的译文组合。Frederking[1]提出了一种典型的并行多引擎机器翻译的方法。该方法基本思想描述如下:1.多个的翻译引擎同时对输入的句子进行翻译,不仅仅对整个句子进行翻译,而且对句子的任何一个片断也可以给出相应的译文,同时对这些译文片断给出一个评分。2.各个翻译引擎共享一个类似线图的数据结构,根据其源文片断所

4、处的位置,将这些译文片断放在这个公共的线图结构之中。3.对各个引擎给出的片断的评分进行一致化处理,使之具有可比较性。4.采用一个动态规划算法(称为ChartWalk算法)选择一组刚好能覆盖整个源文输入句子,同时又具有最高总分的译文片断,作为最后输出的译文。系统结构如图1所示:图1:并行多引擎机器翻译系统结构Hogan[2]通过一个简单的实验,证明这种方法确实可以得到比任何一种单一的方法都更高的准确率。美国卡内基梅隆大学等单位研制的一个著名多引擎的西班牙—英语的机器翻译系统PANGLOSS系统就是

5、采用的这种结构[3]。该系统总共包括三个翻译引擎:一个基于转换的翻译引擎、一个基于知识(中间语言)的翻译引擎和一个基于实例的翻译引擎。其系统结构如图2所示:SourceTextTransferMTEBMTKBMTChartELMCAMTPost-EditHATargetTextFATargetText图2:Pangloss多引擎机器翻译系统的结构在很多多引擎的机器翻译系统中,并不是采用完全独立的多个翻译引擎对源文进行翻译,而是在机器翻译的不同阶段采用不同的算法,例如,在句法阶段采用基于规则的方法

6、,在转换阶段采用基于实例的方法,而在生成阶段采用基于统计的方法。我们把这一种结构称为串行的多引擎机器翻译结构。在这种情况下,每个引擎实际上是翻译系统的一个部件,并不独立完成翻译任务[4][5]。还有很多系统采用的是一种混合的结构,并行中有串行(并行的多个翻译引擎之一又采用串行的多引擎结构),串行中有并行(串行的多个翻译部件之一又采用多个组件并行),形成一种复杂的体系结构。并行的机器翻译结构各个翻译引擎的颗粒度非常大,引擎之间的结合非常松散,一个翻译引擎无法引用另一个翻译引擎的中间结果,这严重限制

7、了整个系统性能的提高。因此,采用这种方法的系统实际上比较少见,大多数多引擎的机器翻译系统实际上都是采用后两种结构。不过,并行的多引擎机器翻译方法有一个突出的优点也是另外两种方法所不具备的,就是其易扩充性。在这种结构下,各个翻译引擎的程序接口完全相同,添加和删除新的翻译引擎变得非常简单,这使得程序的扩充变得非常容易。而在串行和混合的多引擎机器翻译结构中,各个翻译引擎(部件)由于实现的功能不尽相同,各个翻译引擎之间存在复杂的通讯关系,翻译引擎无法采用统一的程序接口,这使得程序的扩充变得非常困难。由德

8、国教育与研究部(BMBF)资助开发的Verbmobil语音机器翻译系统就是一个典型的混合结构的多引擎机器翻译系统[6]。该系统规模非常庞大,整个系统的研制为期8年(1993-2000),涉及三种语言(德语、英语、日语)的双向翻译。世界三大洲的31个研究机构、369名科学家和919名学生(硕士生、博士生和博士后)参与了这个项目的研究。系统采用的技术也非常庞杂,语音处理领域和自然语言处理领域中常见各种技术都在这个系统中有所反映。整个系统由69个互相交互的模块构成。其中用到的自然语言处理技术包括:组块

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。