资源描述:
《汉蒙统计机器翻译与调序080326》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一种基于短语的汉蒙统计机器翻译与调序模型*基金项目:本论文受973前期研究课题“蒙古文信息检索关键问题的研究”(2007CB316503)和内蒙古自然基金项目“蒙古语文本语言模型的构建研究”(200607010805)资助侯宏旭1,2,3刘群1李锦涛1(1中国科学院计算技术研究所,北京1000802内蒙古大学,内蒙古呼和浩特0100213中科院研究生院,北京100080)摘要:本文根据蒙古语的一些特点,为基于短语的汉蒙统计机器翻译提出了一种适合于汉蒙统计机器翻译的调序模型,并给出了相应的训练及解码算法,并给出了初步实验的结果。汉蒙双语语料库规模很小
2、,数据稀疏问题严重,而在汉蒙翻译中,词序变化又非常明显,在汉英等机器翻译中使用的调序方法难于应用到汉蒙统计机器翻译中。本文通过对汉蒙翻译过程中词语顺序变化的正态分布假设,建立一种概率调序模型。实验表明,这种概率调序模型好于Pharaoh系统中采用的调序方法。关键词:机器翻译;统计方法;蒙古语;调序;概率中图分类号:TP391文献标识码:APhraseBasedStatisticalChinese-MongolianMachineTranslationandReorderingModelHOUHongxu1,2,3,LIUQun1,LIJintao1
3、(1InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100080,China2InnerMongoliaUniversity,HohhotInnerMongoliaAR.010021,China3GraduatedUniversityofChineseAcademyofSciences,Beijing100080,China)Abstract:GiventheMongolianfeatures,anorderingmodelfitsforthephrase-basedst
4、atisticalChinese-Mongolianmachinetranslationisputforwardinthispaper,togetherwiththecorrespondingdrills,decodingalgorithmaswellastheresultsoftheprimaryexperiments.Currently,Chinese-Mongolianbilingualcorpusisonarelativelysmallscaleandtheproblemofdatasparseisveryserious.Inadditio
5、n,thewordorderchangesaredramaticandprevalentinChinese-Mongoliantranslations.Inbothcase,thereorderingmethodusedinChinese-Englishtranslationcan’tbeappliedtotheChinese-Mongoliantranslation.Giventheassumptionofthenormaldistributionofword-orderchangesaftertheanalysesofthesechangesi
6、nChinese-Mongoliantranslation,aprobabilitymodelofreorderingisestablishedinthepaper.Accordingtotheexperimentalresults,theprobabilitymodelissuperiortotheorderingmethodinPharaoh.Keywords:Machinetranslation;Statisticalmethod;Mongolian;Reorder;Probability1引言9调序模型是统计机器翻译中的一个重要研究内容,近
7、几年内取得了一些重要的成果。但是,对于汉蒙统计机器翻译中调序模型并没有专门的研究,目前可知的系统都是采用汉英等其他语种的统计机器翻译中使用的调序模型,这些模型并不适应于汉蒙机器翻译。虽然对于语序上比较接近的语言,例如汉语和英语,采用短语翻译可以解决大多数的词序调整,但是调序仍然是不可避免的,对汉英机器翻译来说这往往体现在形容词短语或者副词短语上。对于汉语和蒙古语之间的翻译,这样的情况则更为复杂。蒙古语的基本语序是“主宾谓”结构,典型的蒙古语句子的结构中谓语动词处在句子的最后,而汉语则是“主谓宾”结构。这样长距离的调序是非常常见的。因此,我们无法避免
8、的必须在汉蒙统计机器翻译中考虑调序模型。目前应用在汉英等统计机器翻译的方法主要有以下方法:1)IBM的调序模型[2]IBM