欢迎来到天天文库
浏览记录
ID:6348329
大小:135.50 KB
页数:13页
时间:2018-01-11
《统计机器翻译综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、统计机器翻译综述本文工作受国家重点基础研究计划(973)支持,项目编号是G1998030507-4和G1998030510。刘群刘群,男,1966年生,中国科学院计算技术研究所副研究员,同时在北京大学计算语言学研究所攻读在职博士学位,研究方向是自然语言处理和机器翻译。(北京大学计算语言学研究所北京100871)(中国科学院计算技术研究所北京100080)摘要:本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了统计机器翻译的评测方法。基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。而基于最大熵的方法则
2、是利用一系列实数值特征函数的线性组合来求解最优的译文。基于最大熵的统计机器翻译方法比基于信源信道的方法更具有一般性,后者可以看做前者的一个特例。关键词:统计机器翻译信源信道模型最大熵方法中图分类号:TP391SurveyonStatisticalMachineTranslationLIUQun(InstituteofComputationalLinguistics,PekingUniversity,Beijing100871)(InstituteofComputingTechnology,ChineseAcademyofScien
3、ces,Beijing100080)Email:liuqun@ict.ac.cnAbstract:ThepapergivesasurveyonthreeapproachesofstatisticalmachinetranslationandtheevaluationmethodsusedinSMT.Thebasicideaofparallelgrammarbasedapproachistobuildparallelgrammarsforsourceandtargetlanguages,whichconformthesameprob
4、abilisticdistribution.Inthesource-channelapproach,thetranslationprobabilityisexpressedasalanguagemodelandatranslationmodel.Inthemaximumentropyapproach,theoptimaltranslationissearchedaccordingtoalinearcombinationofaseriesofreal-valuedfeaturefunctions.Thesource-channela
5、pproachcanberegardasaspecialcaseofmaximumentropyapproach.Keywords:StatisticalMachineTranslation,SourceChannelModel,MaximumEntropyMethod1概述统计机器翻译,又称为数据驱动(data-driven)的机器翻译。其思想其实并不新鲜。早在1949年,Weaver发表的以《翻译》为题的备忘录中就提出:“当我阅读一篇用俄语写的文章的时候,我可以说,这篇文章实际上是用英语写的,只不过它是用另外一种奇怪的符号编了
6、码而已,当我在阅读时,我是在进行解码。”这实际上就是基于信源信道思想的统计机器翻译方法的萌芽。实际上,早期的机器翻译系统通常都建立在对词类和词序分析的基础之上,分析中经常使用统计方法,只是后来以Chomsky转换生成语法为代表的理性主义方法兴起后,统计机器翻译方法几乎不再被人使用。1990年代初期,IBM的Brown等人提出了基于信源信道思想的统计机器翻译模型,并且在实验中获得了初步的成功,引起了研究者广泛的关注和争议。不过由于当时计算能力等多方面限制,真正开展统计机器翻译方法研究的人并不多,统计机器翻译方法是否真正有效还受到人们
7、普遍的怀疑。不过,近年来,随着越来越多的研究人员投入到统计机器翻译的研究中并取得了成功,统计方法已逐渐成为国际上机器翻译研究的主流方法之一。作者根据所查阅的文献,把基于统计的机器翻译方法大体上分为以下三类:第一类是基于平行概率语法的统计机器翻译方法,其基本思想是,用一个双语平行的概率语法模型,同时生成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语言句子。这种方法的主要代表有Alshawi的HeadTransducer模型和吴德恺的ITG模型,由于这类方法影响较小,而本文篇幅有限,这里不对这类方法进行介绍。第二
8、类是基于信源信道模型的统计机器翻译方法,这种方法是由IBM公司的PeterBrown等人在1990年代初提出的[4,5],后来很多人都在这种方法的基础上做了很多改进工作,这也是目前最有影响的统计机器翻译方法,一般说的统计机器翻译方法都是指的这一类方
此文档下载收益归作者所有