欢迎来到天天文库
浏览记录
ID:6048083
大小:41.50 KB
页数:15页
时间:2018-01-01
《统计机器翻译中双语语料过滤和词对齐改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、统计机器翻译中双语语料过滤和词对齐改进 摘要:词对齐是统计机器翻译系统中最重要的一个环节,统计机器翻译中的翻译模型和调序模型都是在词对齐结果的基础上构造的,词对齐阶段出现的错误,会延续到这些模型中,甚至会因为词对齐的错误而在这些模型中引发更大的错误。为减少词对阶段的错误,提出一种基于对齐困惑度的双语语料过滤方法和一种改进的判别式词对齐算法,语料过滤方法可以将词对齐阶段有严重错误的双语句对过滤掉,判别式词对齐算法与传统的自动词对齐算法相比,可以得到对齐错误率更低的词对齐结果。关键词:词对齐;统计机器翻译;对齐困惑度;对齐错误率中图法
2、分类号TP391文献识别号:A文章编号:2095-2163(2013)04-FilteringTrainingCorpusandImprovingWordAlignmentforstatisticalMachineTranslationLIANGHuashen,ZHAOTiejun(MOE-MSKeyLabofNaturalLanguageProcessingandSpeech,HarbinInstituteofTechnology,Harbin150001,China)15Abstract:Wordalignmentisoneof
3、themostimportantstepforstatisticalmachinetranslationsystems.Translationmodelsandreorderingmodelsarebothbuiltbasedonwordalignmentresult.Thebadinfluencecausedbywordalignmenterror,wouldstillexistinthesemodels,orevenbecomeworse.Inordertoeliminatethewordalignmenterrors,thep
4、aperproposesacorpusfilteringapproachbasedonalignmentperplexity,andalsoproposesanimproveddiscriminativewordalignmentalgorithm.Thecorpusfilteringapproachcanomitsentencepairswhichcontaincrucialalignmenterrors.Comparedwiththetraditionalwordalignmentalgorithm,theimprovedwor
5、dalignmentalgorithmcanproducealignmentswithloweralignmenterrorrate.Keywords:WordAlignment;StatisticalMachineTranslation;AlignmentPerplexity;AlignmentErrorRate0引言上世纪90年代前后,IBMWatson研究中心的Brown15等人提出了基于信源信道模型的统计翻译方法[1-3],此类方法的性能远远超越了传统的基于规则的翻译方法。从此基于统计的机器翻译引起了研究者的广泛关注。199
6、9年,研究者们根据Brown提出的思想发布了第一个基于统计的无指导词对齐工具GIZA[4],其后德国亚琛工业大学的Och等人对GIZA进行了改进,发布了新版本的词对齐工具,称为GIZA++[5,6]。从此,统计翻译方法成为国际机器翻译领域的研究热点。总体来说,IBM的5个模型词对齐模型均属于产生式模型,其使用的特征都是固定的,不可以随意加入其它特征。于是,一些学者探索了使用基于最大熵理论的判别式模型进行词对齐的方法。中科院计算所的刘洋将目前流行的统计翻译框架运用于词对齐上,由于此框架采用了对数线性模型,因而这种词对齐技术可以融合任意
7、特征[7]。卡内基梅隆大学的Dyer也提出了类似的方法[8],用对数线性模型融合任意的特征,与刘洋工作的不同之处在于,Dyer采用一种梯度下降的online方法对特征权重进行估计,而刘洋则采用统计机器翻译中常用的最小错误率训练(MinimumErrorRateTraining,MERT)[9]的方法对特征权重进行估计。本文针对IBM词对齐模型4的特点,提出了一串基于对齐困惑度的双语语料过滤方法和一种改进的判别式词对齐算法,语料过滤方法可以将词对齐阶段有严重错误的双语句对过滤去掉,判别式词对齐算法与传统的自动词对齐算法相比,可以得到对
8、齐错误率更低的词对齐结果。151基于困惑度的训练语料过滤方法1.1单语语句的困惑度在统计机器翻译中,通常引入n-gram语言模型来判断自动产生的翻译结果是否为一个合理的目标语言句子。假设e=e1e2…ek是由K个单词组成的英文句子,则
此文档下载收益归作者所有