统计机器翻译中双语语料过滤和词对齐改进

统计机器翻译中双语语料过滤和词对齐改进

ID:6048083

大小:41.50 KB

页数:15页

时间:2018-01-01

统计机器翻译中双语语料过滤和词对齐改进_第1页
统计机器翻译中双语语料过滤和词对齐改进_第2页
统计机器翻译中双语语料过滤和词对齐改进_第3页
统计机器翻译中双语语料过滤和词对齐改进_第4页
统计机器翻译中双语语料过滤和词对齐改进_第5页
资源描述:

《统计机器翻译中双语语料过滤和词对齐改进》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、统计机器翻译中双语语料过滤和词对齐改进  摘要:词对齐是统计机器翻译系统中最重要的一个环节,统计机器翻译中的翻译模型和调序模型都是在词对齐结果的基础上构造的,词对齐阶段出现的错误,会延续到这些模型中,甚至会因为词对齐的错误而在这些模型中引发更大的错误。为减少词对阶段的错误,提出一种基于对齐困惑度的双语语料过滤方法和一种改进的判别式词对齐算法,语料过滤方法可以将词对齐阶段有严重错误的双语句对过滤掉,判别式词对齐算法与传统的自动词对齐算法相比,可以得到对齐错误率更低的词对齐结果。关键词:词对齐;统计机器翻译;对齐困惑度;对齐错误率中图法

2、分类号TP391文献识别号:A文章编号:2095-2163(2013)04-FilteringTrainingCorpusandImprovingWordAlignmentforstatisticalMachineTranslationLIANGHuashen,ZHAOTiejun(MOE-MSKeyLabofNaturalLanguageProcessingandSpeech,HarbinInstituteofTechnology,Harbin150001,China)15Abstract:Wordalignmentisoneof

3、themostimportantstepforstatisticalmachinetranslationsystems.Translationmodelsandreorderingmodelsarebothbuiltbasedonwordalignmentresult.Thebadinfluencecausedbywordalignmenterror,wouldstillexistinthesemodels,orevenbecomeworse.Inordertoeliminatethewordalignmenterrors,thep

4、aperproposesacorpusfilteringapproachbasedonalignmentperplexity,andalsoproposesanimproveddiscriminativewordalignmentalgorithm.Thecorpusfilteringapproachcanomitsentencepairswhichcontaincrucialalignmenterrors.Comparedwiththetraditionalwordalignmentalgorithm,theimprovedwor

5、dalignmentalgorithmcanproducealignmentswithloweralignmenterrorrate.Keywords:WordAlignment;StatisticalMachineTranslation;AlignmentPerplexity;AlignmentErrorRate0引言上世纪90年代前后,IBMWatson研究中心的Brown15等人提出了基于信源信道模型的统计翻译方法[1-3],此类方法的性能远远超越了传统的基于规则的翻译方法。从此基于统计的机器翻译引起了研究者的广泛关注。199

6、9年,研究者们根据Brown提出的思想发布了第一个基于统计的无指导词对齐工具GIZA[4],其后德国亚琛工业大学的Och等人对GIZA进行了改进,发布了新版本的词对齐工具,称为GIZA++[5,6]。从此,统计翻译方法成为国际机器翻译领域的研究热点。总体来说,IBM的5个模型词对齐模型均属于产生式模型,其使用的特征都是固定的,不可以随意加入其它特征。于是,一些学者探索了使用基于最大熵理论的判别式模型进行词对齐的方法。中科院计算所的刘洋将目前流行的统计翻译框架运用于词对齐上,由于此框架采用了对数线性模型,因而这种词对齐技术可以融合任意

7、特征[7]。卡内基梅隆大学的Dyer也提出了类似的方法[8],用对数线性模型融合任意的特征,与刘洋工作的不同之处在于,Dyer采用一种梯度下降的online方法对特征权重进行估计,而刘洋则采用统计机器翻译中常用的最小错误率训练(MinimumErrorRateTraining,MERT)[9]的方法对特征权重进行估计。本文针对IBM词对齐模型4的特点,提出了一串基于对齐困惑度的双语语料过滤方法和一种改进的判别式词对齐算法,语料过滤方法可以将词对齐阶段有严重错误的双语句对过滤去掉,判别式词对齐算法与传统的自动词对齐算法相比,可以得到对

8、齐错误率更低的词对齐结果。151基于困惑度的训练语料过滤方法1.1单语语句的困惑度在统计机器翻译中,通常引入n-gram语言模型来判断自动产生的翻译结果是否为一个合理的目标语言句子。假设e=e1e2…ek是由K个单词组成的英文句子,则

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。