欢迎来到天天文库
浏览记录
ID:14859624
大小:50.50 KB
页数:21页
时间:2018-07-30
《微引擎流水线机器翻译系统结构》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、微引擎流水线机器翻译系统结构微引擎流水线机器翻译系统结构刘群北京大学计算语言学研究所中国科学院计算技术研究所liuqun@ict.ac.cn摘要:本文从知识表示、知识获取、知识运用三个层面对于在机器翻译系统开发过程中规则方法和统计方法结合的方式进行了综述和分析,并介绍了我们提出的微引擎流水线机器翻译系统结构。关键词:机器翻译,混合方法,多引擎策略,微引擎流水线结构1.规则与统计相结合的机器翻译方法 自然语言处理和机器翻译研究中规则方法和统计方法(或者称为理性主义和经验主义)是两种主流的方法。我们认为这种提法过于笼统,这里我们从知识表示和知识获取两个方面对现有的
2、一些研究方法做一些归类。 从知识表示的角度看,现有的方法可以归为以下几类:1.规则:符号化的规则是一种很直观的知识表示形式,对于语言学家来说,表达非常方便,粒度可粗可细,灵活性很大;但规则表示的知识一般遵从非此即彼的二值逻辑,系统鲁棒性较差;2.数据:在各种统计模型中,知识都是通过数据体现出来;而实际数据型知识也不一定就是统计知识,如模糊集合的隶属度也是一种数据型知识;3.规则+数据:这是一种混合型知识表示形式,典型的如各种形式的概率语法,为每一条规则加上概率信息或置信度信息;4.语料库:大多数情况下,语料库中所包含的知识是隐含的,必须通过某种防止转化为其他形
3、式的知识,才能被运用。不过,在某些情况下,语料库也可以直接作为知识表示的一种形式。例如在基于翻译记忆(TM)的系统中,所有的翻译知识就是一个双语对照的语料库。从知识获取的角度看,现有的方法可以分为两类:1.人工归纳法(理性主义方法):人工总结各种语言知识,这种知识可以是某种规则形式,也可以是数据形式。例如在很多规则系统中,规则的置信度就是由人工给出的;2.统计学习法(经验主义方法):通过某种数理统计或者机器学习方法从语料库中获取知识。同样,这种知识既可以是某种数据,也可以是一种规则。例如TBL(基于转换的错误驱动的学习方法)就是通过统计学习规则的方法。根据上面的
4、分析,我们给出了一个表格,将一些常见的方法做了一个归类:知识表示知识获取规则数据规则+数据语料库人工(理性)CFG,FSMGB,LFG,HPSGHNC规则评分体系G语言统计(经验)TBLGeneralizedEBMTTemplate-BasedMTStatisticalMTHMMMaxEntropyPCFG&LexicalizedPCFGStatisticalHeadTransducerTMEBMTDOP表1:从知识表示和知识获取两方面对现有的一些自然语言处理技术进行分类 由于机器翻译问题的复杂性,现有的各种单一的技术都很难取得好的结果,人们自然就想到如果把几
5、种方法混合起来是否对机器翻译的总体效果有所改进,于是有人就提出了多引擎的机器翻译策略。本文所介绍的微引擎流水线机器翻译体系结构就是多引擎策略的一种实现形式。2.多引擎机器翻译方法概述 由于没有哪种机器翻译方法能够取得令人满意的效果,于是多引擎的思想自然就成为一种提高机器质量的手段。而且这种方法也确实有效。 [Frederking1994]提出了一种典型的多引擎机器翻译的方法。该方法基本思想描述如下:1.多个的翻译引擎同时对输入的句子进行翻译,不仅仅对整个句子进行翻译,而且对句子的任何一个片断也可以给出相应的译文,同时对这些译文片断给出一个评分。2.各个翻译引
6、擎共享一个类似Chart的数据结构,根据其源文片断所处的位置,将这些译文片断放在这个公共的Chart结构之中。3.对各个引擎给出的片断的评分进行一致化处理,使之具有可比较性。4.采用一个动态规划算法(称为ChartWalk算法)选择一组刚好能覆盖整个源文输入句子,同时又具有最高总分的译文片断,作为最后输出的译文。 系统结构如下图所示: [Hogan1998]通过一个简单的实验,证明这种方法确实可以得到比任何一种单一的方法都更高的准确率。 现在,多引擎的方法在机器翻译系统的开发中已得到广泛采用。不过具体的应用模式千差万别。目前
7、常用的多引擎机器翻译系统主要有三种结果形式,我们称之为并行的结构、串行的结构和混合的结构。 并行结构也就是我们上面介绍的[Frederking1994]一文使用的系统结构。在这种结构中,各个翻译引擎各自独立地对输入的文本进行翻译,并将翻译的结果放到一个统一的数据结构中,最后由一个译文选择模块选择出最好的译文组合。 在很多多引擎的机器翻译系统中,并不是采用完全独立的多个翻译引擎对源文进行翻译,而是在机器翻译的不同阶段采用不同的算法,例如,在句法阶段采用基于规则的方法,在转换阶段采用基于实例的方法,而在生成阶段采用基于统计的方法。我们把这一种结构称为串行的多引擎
8、机器翻译结构。 还有很
此文档下载收益归作者所有