资源描述:
《常用统计翻译模型在口语汉英翻译中的比较研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第24卷第6期计算机应用研究Vol.24No.62007年6月ApplicationResearchofComputersJune2007*常用统计翻译模型在口语汉英翻译中的比较研究李俊,薛永增,赵铁军(哈尔滨工业大学计算机科学与技术学院语音语言教育部微软重点实验室,黑龙江哈尔滨150001)摘要:通过汉语到英语的翻译实验以及对结果译文的分析,对基于词的模型、基于短语的模型和基于句法的模型的翻译性能进行了比较。结果表明基于短语的模型性能优于其他两个模型,但是使用的参数较多;基于句法的模型虽然翻译性能不理想,但可以用较少的参数表达更丰富的信息,值得深入研究。关键词:自然语言处理;
2、统计机器翻译;翻译模型;句法分析器中图分类号:TP391.2文献标志码:A文章编号:1001-3695(2007)06-0069-03ComparativeStudyofStatisticalTranslationModelsonChinese-EnglishSpeechTranslationLIJun,XUEYong-zeng,ZHAOTie-jun(MOE-MSKeyLaboratoryofNaturalLanguageProcessing&Speech,SchoolofComputerScience&Technology,HarbinInstituteofTechnolo
3、gy,HarbinHeilongjiang150001,China)Abstract:Accordingtothelinguisticsinformation,thereareprimaryword-basd,phrased-basedandsyntax-basedtranslationmodels:Byanalyzingandcomparingthetranslationresults,it’sfoundthattheperformanceofthephrase-basedtranslationmodelisthebest.Thesyntax-basedmodelisthew
4、orst,butituseslessparametersthantheothertwo.Itencodesrichinforma-tionwithafewparameters,soit’sdeservedfurtherresearch.Keywords:naturallanguageprocessing;statisticalmachinetranslation;translationmodel;parser机器翻译的目标就是将给定的一个源语言文本翻译成目息,有望处理长距离依赖和调序问题,正逐渐成为新的研究热m标语言文本。对汉英翻译来说,输入一个汉语句子c(c1,m为点。这类模
5、型大致可以分为语言学驱动(Linguistically-motiva-n句子长度),可能会有很多英语译文e(e,n为句子长度),统计ted)的模型和非语言学驱动的模型。前者依赖于句法分析树1机器翻译的任务是在所有可能的译文中,找到最佳译文。根据的指导,如Yamada的树—串统计翻译模型、概率树替换文法Bayes公式可得到(ProbabilisticTreeSubstitutionGrammar)模型以及多文本文法e*=argmaxP(e
6、c)=argmaxP(c
7、e)P(e)(1)模型(Multi-TextGramar,MTG);后者是无指导的,在翻译过程ee中建立层次结构,主
8、要包括反向转换文法(InversionTransduc-式(1)包含了两方面的问题,即建模和解码。其中,P(e)tionGrammar,ITG)模型、中心词转录机(HeadTransducer)模是语言模型(LanguageModel,LM);P(c
9、e)表示翻译模型型、层次化短语翻译模型(HierarchicalPhrase-basedModel)等。(TranslationModel,TM);这里的argmax表示解码问题。此外还有一类模型,利用句法信息来抽取非层次化的短语翻译早在1949年,Weaver就提出利用统计方法研究机器翻译等价对,可以看做是介于短语和句法翻译模型
10、之间的一类统计问题。其基本思想是把外语看成是对本地语言的一种编码,而翻译模型。翻译过程就是对外语文章进行解码,用本地语言表达同样的意思。20世纪90年代初,IBMT.J.Watson研究中心的Brown等1翻译模型概述人开创性地提出了词对词的统计翻译模型,并以此为基础构建[1]了Candide系统。此后对IBM模型比较重要的改进包括在1.1基于词的翻译模型IBM模型2的基础上提出基于隐马尔可夫模型的对齐模型IBM翻译模型是目前统计翻译模型研究的基础,包括模型(HMM-basedAlignme