基于短语的汉维维汉统计机器翻译 基于短语new

基于短语的汉维维汉统计机器翻译 基于短语new

ID:34138780

大小:286.51 KB

页数:3页

时间:2019-03-03

基于短语的汉维维汉统计机器翻译 基于短语new_第1页
基于短语的汉维维汉统计机器翻译 基于短语new_第2页
基于短语的汉维维汉统计机器翻译 基于短语new_第3页
资源描述:

《基于短语的汉维维汉统计机器翻译 基于短语new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第37卷第9期计算机工程2011年5月Vol.37No.9ComputerEngineeringMay2011···博士论文·博士论文···文章编号:::1000———3428(2011)09———0016———03文献标识码:::A中图分类号:::TP391.1基于短语的汉维/维汉统计机器翻译1211董兴华,,,周俊林,周俊林,,,郭树盛,郭树盛,,,吐尔洪,吐尔洪·吾司曼(1.中国科学院新疆理化技术研究所,乌鲁木齐830011;2.中国科学院新疆分院,乌鲁木齐830011)摘摘摘要要要:要:::利用电话录音的汉维平行语料库和开源

2、的Moses系统构建一个基于短语的统计机器翻译系统。针对汉维平行语料库规模较小和维吾尔语形态变化比较丰富的特点,通过对词级的语料库进行切分得到词素级的语料库,并分别进行词一级的实验和词素级的实验。实验表明,词素级的实验能降低无法识别的词的概率,提高翻译的质量。关键词:::汉维:;维汉;词素;预处理;后处理Phrase-basedChinese-Uyghur/Uyghur-ChineseStatisticalMachineTranslation1211DONGXing-hua,ZHOUJun-lin,GUOShu-sheng,Turg

3、hunOsman(1.XinjiangTechnicalInstituteofPhysics&Chemistry,ChineseAcademyofScience,Urumqi830011,China;2.XinjiangBranchofChineseAcademyofScience,Urumqi830011,China)【【【Abstract】】】Thispapergivesadescriptionofimplementingaphrase-basedmachinetranslationsystemforChinese-Uyghur

4、,bytheMosestoolkit,usingaparallelcorpuswhichisbasedontelephonerecording.Forthesmallscaleparallelcorpusandhighly-inflectedcharacteristicsforUyghur,itsplitstheUyghurwordsintomorphemes,anditgetsanotherparallelcorpusonmorpheme-level.Experimentsarecarriedoutonword-levelandm

5、orpheme-levelseparately,andshowitcanreducetheprobabilityofOut-Of-Vocabulary(OOV)andimprovethetranslationquality.【【【Keywords】】】Chinese-Uyghur;Uyghur-Chinese;morpheme-level;preprocessing;postprocessingDOI:10.3969/j.issn.1000-3428.2011.09.0061概述0.218,而英语到芬兰语的得分为0.130,从图1可

6、以看出,新疆维吾尔自治区是一个多民族的地区,自治区法定语汉语和维吾尔语的“语言距离”更大,这种跨度使汉维/维汉言为汉语和维吾尔语。自治区政府文件、报纸和部分书籍有统计的机器翻译面临很多挑战。汉语和维吾尔语2个版本,汉语和维吾尔语的相互翻译要耗费大量的人力、物力、财力。少数民族在先进技术的应用,信息和知识的获取上同汉族相比差距十分明显,民族间的“数字鸿沟”逐渐扩大,其在信息化方面的落后影响着新疆地区整体信息化建设,也扩大了地区之间经济发展的差距。由于汉维2种语言属于不同的语系(维吾尔语属于阿尔泰语系,汉语属于汉藏语系),2种语言的形态

7、变化间的差异很大。因此图图图1语言复杂程度比较对汉维/维汉间的机器翻译研究具有一定的经济社会价值和本文在汉维平行语料库较小的情况下,通过把维吾尔语理论价值。单词切分成更小的词素来降低OOV(Out-Of-Vocabulary比较成熟的统计的翻译方法是基于短语的翻译方法,它problem)的概率,从而提高了翻译的质量。是对IBM基于词的翻译模型的改进。基于词的机器翻译把词作为基本的翻译单元,基于短语的机器翻译把短语作为翻译2基于短语的汉维机器翻译中的形态学处理基于短语的统计翻译模型把词或短语作为翻译的基本单的基本单元。把短语作为基本单

8、元可以不用考虑短语中词之位,此模型的一个缺陷是没有考虑词与词之间的内部关系,间的语法信息,因此得到的翻译结果也更加准确、合理。基如“car”和“cars”在翻译时被当作完全不同的2个实体,于短语的翻译模型有其自身的局限性,适合处理形态

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。