基于短语模板对齐的统计机器翻译系统

基于短语模板对齐的统计机器翻译系统

ID:27635491

大小:130.50 KB

页数:6页

时间:2018-12-03

基于短语模板对齐的统计机器翻译系统_第1页
基于短语模板对齐的统计机器翻译系统_第2页
基于短语模板对齐的统计机器翻译系统_第3页
基于短语模板对齐的统计机器翻译系统_第4页
基于短语模板对齐的统计机器翻译系统_第5页
资源描述:

《基于短语模板对齐的统计机器翻译系统》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于短语模板对齐的统计机器翻译系统基金项目:国家自然科学基金项目(项目号:60272041)作者简介:杨振东(1978—),男,博士生,主要研究方向为统计机器翻译。杨振东庞薇魏玮杜金华陈振标宗成庆zdyang@hitic.ia.ac.cn(中国科学院自动化研究所高技术创新中心,北京100080)摘要:论文提出了一种基于短语模板对齐的机器翻译系统。系统采用基于短语模板对齐的翻译模型替代原始基于词的模型,提出了计算短语模板翻译概率的方法,改进了先前单纯基于短语的搜索算法和回溯方法,解码时引入繁衍度为0且出现频率高的词,使翻译结果更合理。论文进行

2、了一系列实验,介绍了05年863评测,证明本系统翻译结果的Bleu得分比原来的系统有了显著提高。关键词:统计机器翻译;翻译模型;搜索算法中图分类号:T391.2ThePhrase-TemplateAlignmentBasedStatisticalMachineTranslationYangZhendong,PangWei,WeiWei,DuJinhua,ChenZhenbiao,ZongChengqing(Hi-techInnovationCenter,InstituteofAutomation,ChineseAcademyofScienc

3、e,Beijing100080,China)Abstract:Inthispaperweproposeaphrase-templatealignmentbasedtranslationsystem.Inthesystem,weusephrase-templatetranslationmodelinsteadofword-basedmodel.Animprovedmethodtocomputephrase-templatetranslationprobabilityisstudied.Aphrase-templatebaseddecoderw

4、edevelopedemploysabeamsearchalgorithm,inwhichsometargetlanguagewordsthathavebothhighfrequencyofappearanceandalsofertilityzeroareintroducedtomaketheresultmorereasonable.Weimprovethepreviouslyproposedtracingbackalgorithmtogetthebestpath.Someexperimentsconcernedarepresented.K

5、eywords:statisticalmachinetranslation;translationmodel;searchingalgorithm1简介统计机器翻译是大词汇量文本翻译最有效的方法之一,90年代早期,IBM开发了Candide系统[1],在此启发之下,出现了很多的统计机器翻译系统[2][3],这些系统有三部分核心技术:翻译模型,语言模型,搜索算法。基本原理是:以翻译模型制约源语言与目标语言之间词的对应,结合目标语言模型来驱动搜索进行。近年来,开发者不断研究,翻译系统从原始的基于词的翻译模型发展到更复杂的模型,基于对齐模板[4]

6、和基于短语的翻译模型及相应的搜索算法被提出[5][6],当前很多高效的翻译系统是基于短语的统计机器翻译系统。我们的系统是在基于短语的翻译模型中引入模板的思想,构成了一种基于短语模板对齐的中英翻译系统。系统提出了一种结合对位信息和出现频率来计算短语模板翻译概率的方法,根据汉语与英语表达方式的不同,在搜索算法上改进了原来的柱搜索算法[7],引入了繁衍度为零且出现频率较高的词的信息,并改进了回溯算法,由于翻译的质量很大程度上依赖于短语模板对的抽取,文章的第2部分研究了短语模板的定义,短语模板对的提取方法及翻译概率的计算,第3部分主要介绍了改进的搜

7、索算法,第4部分讨论了一系列中文到英文的翻译实验,探讨了不同短语模板抽取方法及改进的搜索算法的效果,文章的第5部分进行了总结。2基于短语模板的翻译模型2.1短语模板原短语短语模板9点到达#getat9TIMP_到达#getattimp_从北京到上海#fromBeijingtoShanghai从LOC_到LOC_#fromloc_toloc_图1短语模板在计算翻译模型概率与语言模型概率时不可避免的会遇到数据稀疏问题,为此当构成短语对的双方同时出现表示命名实体或数字的词时,用规定的代表这一类词的变量来代替,这样就使原来的短语具有了泛化能力,也从

8、一定程度上解决了数据稀疏问题,我们把含有变量的短语称为短语模板,这样不含变量的短语只是短语模板中的特例。例如把中文中表示时间和地点的词分别用TIMP_和LOC_代替,英文中用ti

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。