欢迎来到天天文库
浏览记录
ID:55746730
大小:455.72 KB
页数:7页
时间:2020-06-06
《有限语料汉蒙统计机器翻译调序方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第27卷第5期中文信息学报Vo1.27。No.52O13年9月JOURNALOFCHINESEINFoRMATIONPROCESSINGSep.,2O13文章编号:1003—0077(2013)05-0198—07有限语料汉蒙统计机器翻译调序方法研究陈雷,李淼,张健,曾伟辉(中国科学院合肥智能机械研究所,安徽合肥230031)摘要:自统计机器翻译技术出现以来,调序一直是语序差异显著的语言对互译系统中的关键问题,基于大规模语料训练的调序方法得到了广泛研究。目前汉蒙双语语料资源十分有限,使得现有的依赖于
2、大规模语料和语言学知识的调序方法难以取得良好效果。该文对已有的相关研究进行了分析,提出了在有限语料条件下的汉蒙统计机器翻译调序方法。该方法依据语言学知识获取对译文语序影响显著的短语类型,研究这些短语类型的调序方案,并融入已有的调序模型实现调序的优化。实验表明该方法在有限语料条件下的效果提升显著。关键词:统计机器翻译;调序;动词短语;有限语料中图分类号:TP391文献标识码:AReorderingforChinese—MongolianSMTBasedonSmallParallelCorpusCHEN
3、Lei,LIMiao,ZHANGJian,ZENGWeihui(InstituteofIntelligentMachines,ChineseAcademyofSciences,Hefei,Anhui230031,China)Abstract:Thereorderingmodelsaresignificantinreducingthedifferenceofwordordersbetweenthelanguagepairsinstatisticalmachinetranslation.Mostreor
4、deringapproacheshavehighrequirementsofthescaleoftheparallelcor—pusinstatisticalmachinetranslation.Chineseminoritylanguageresourcesareveryscarceanddifficulttoachievesubstantialgrowthinashorttime.Thereforethecurrentreorderingapproachescannotplaygoodeffec
5、tinthetrans—lationsbetweenChineseandminoritylanguages.Afteranalyzingtherelatedstudies,thepaperproposesasource-sidereorderingmethodbasedonasmallparallelcorpus.Invirtueofthelinguisticknowledge,weanalyzedbothcor—pusandtranslationstoobtaintheverbphraseswhi
6、chaffectedthewordordersoftranslationsevidently.Andthenwestudiedthereorderingrulesoftheseverbphrases,includingmanuallywrittenrulesandautomaticallyextractedrules.Experimentsshowthatourmethodcanimprovetheperformanceofthestateof-the—artphrasetranslationmod
7、els.Keywords:statisticalmachinetranslation;reordering;verbphrase;smallparallelcorpus在寻找所需要的特征时往往存在一些困难。同时,1引言将特征融入训练与解码过程会导致调序模型更加复杂,也更加耗时。另一类调序模型是在前处理过程在统计机器翻译系统中,互译语言之间的语序中将源语言的语序尽可能地调整为与目标语言一差异往往较为显著。为了提升最终的译文质量,调致。Visweswariah等提出了一个基于句法的调序序模型在消除互译语
8、言之间的语序差异方面起到至方法E,该方法从源语言的解析树上自动抽取重排关重要的作用。序规则,并自动生成词对齐。Khalilov和Sima’an通常来说调序模型分为两大类:一类是将调序提出了一个类似的依据源端解析树的特征来决定重知识作为特征函数,融入对数线性模型_】j。该模型排序的源端重排序系统J。国内在汉蒙统计机器翻收稿日期:2013—06—01定稿日期:201307—15基金项目:中国科学院信息化专项(XXH12504—1—10);国家自然科学基金资助项目(6107
此文档下载收益归作者所有