资源描述:
《统计机器翻译综述_刘群》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、中文信息学报第17卷第4期JOURNALOFCHINESEINFORMATIONPROCESSINGVol117No14文章编号:1003-0077-(2003)04-0001-12¹统计机器翻译综述刘群(北京大学计算语言学研究所,北京100871;中国科学院计算技术研究所,北京100080)摘要:本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了统计机器翻译的评测方法。基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。而基于最大熵的方法则是利用一系列实数值特征函数的线性组合来求解最优的译文。基于最大熵
2、的统计机器翻译方法比基于信源信道的方法更具有一般性,后者可以看做前者的一个特例。关键词:人工智能;机器翻译;综述;统计机器翻译;信源信道模型;最大熵方法中图分类号:TP391.2文献标识码:ASurveyonStatisticalMachineTranslationLIUQun(InstituteofComputationalLinguistics,PekingUniversity,Beijing100871,China;InstituteofComputingTechnology,ChineseAcademyofSciences,
3、Beijing100080,China)Abstract:ThepapergivesasurveyonthreeapproachesofstatisticalmachinetranslationandtheevaluationmethodsusedinSMT.Thebasicideaofparallelgrammarbasedapproachistobuildparallelgrammarsforsourceandtargetlanguages,whichconformthesameprobabilisticdistribution
4、.Inthesource-channelapproach,thetranslationproba-bilityisexpressedasalanguagemodelandatranslationmodel.Inthemaximumentropyapproach,theoptimaltranslationissearchedaccordingtoalinearcombinationofaseriesofrea-lvaluedfeaturefunctions.Thesource-chan-nelapproachcanberegardas
5、aspecialcaseofmaximumentropyapproach.Keywords:artificialintelligence;machinetranslation;overview;statisticalmachinetranslation;sourcechannelmodel;maximumentropymethod一、概述统计机器翻译,又称为数据驱动(data-driven)的机器翻译。其思想其实并不新鲜。早在1949年,Weaver发表的以5翻译6为题的备忘录中就提出:/当我阅读一篇用俄语写的文章的时候,我可以说,
6、这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了码而已,当我在阅读时,我是在进行解码。0这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。实际上,早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。90年代初,IBM的Brown等人提出了基于信源信道思想的统¹收稿日期:2003-02-10基金项目:国家重点基础研究计划(973)支持项目(G1998030507-4;G1998030510)
7、作者简介:刘群(1966)),男,副研究员,在职博士,研究方向是自然语言处理和机器翻译.1计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们普遍的怀疑。不过,近年来,随着越来越多的研究人员投入到统计机器翻译的研究中并取得了成功,统计方法已逐渐成为国际上机器翻译研究的主流方法之一。作者根据所查阅的文献,把基于统计的机器翻译方法大体上分为以下三类:第一类是基于平行概率语法的统计机器翻译方法,其基本思想
8、是,用一个双语平行的概率语法模型,同时生成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语言句子。这种方法的主要代表有Alshawi的HeadTransducer模型和吴德恺的ITG模型,由于这类方法影响较小,而本