蒙汉机器翻译中的数词自动翻译研究.pdf

蒙汉机器翻译中的数词自动翻译研究.pdf

ID:55576187

大小:256.11 KB

页数:4页

时间:2020-05-19

蒙汉机器翻译中的数词自动翻译研究.pdf_第1页
蒙汉机器翻译中的数词自动翻译研究.pdf_第2页
蒙汉机器翻译中的数词自动翻译研究.pdf_第3页
蒙汉机器翻译中的数词自动翻译研究.pdf_第4页
资源描述:

《蒙汉机器翻译中的数词自动翻译研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第44卷第3期内蒙古师范大学学报(自然科学汉文版)Vo1.44No.32015年5月JournalofInnerMongoliaNormalUniversity(NaturalScienceEdition)May2015蒙汉机器翻译中的数词自动翻译研究乌丹牧其尔,王斯日古楞(内蒙古师范大学计算机与信息工程学院,内蒙古呼和浩特010022)摘要:研究了蒙古文中7类数词与蒙古文数词的语法变化形式的翻译问题.在语言学知识的基础上,应用计算机技术设计和实现了蒙古文数词的自动识别与翻译程序,将其应用到蒙汉

2、统计机器翻译的后处理中,对机器翻译译文进行未登录数词翻译实验,结果表明,其评测结果在NIST值上提高了0.0347,BLUE值提高了0.0022.关键词:蒙汉机器翻译;蒙古文;数词;机器翻译后处理中图分类号:TP391.2文献标志码:A文章编号:1001-8735(2015)03-0368—04机器翻译是自然语言信息处理的一个重要应用领域,其中基于统计的机器翻译作为目前最为流行的机器翻译方法,已经发展到了一个新的阶段.关于统计机器翻译的理论和技术研究,国内外有很多可以共享的公开资源,这对蒙汉统计

3、机器翻译的研究奠定了深厚的基础,但是蒙汉机器翻译仍面临着很多问题,比如,蒙古语是黏着型语言,其形态变化非常丰富,蒙古语和汉语属于不同的语系,具有不同的形态学特征,在词汇、语法以及修辞手法等方面都有较大的差异.这些在很大程度上对蒙汉机器翻译的研究造成了影响_】].数词是一个开放的集合,蒙汉双语语料库中不可能出现所有的数词形式r2],因此在机器翻译译文中难免会出现未登录数词.在真实文本中,数词有多种表现形式,不仅会以蒙古文形式出现,还会以阿拉伯数字或二者混合的形式出现.在机器翻译过程中发现,无法用统

4、计方法对文本中的所有数词进行正确翻译.内蒙古大学雪艳等[3通过对38000句汉蒙生活用语语料进行统计后得到,蒙古文语料中数词在所有词性的词中所占的比例约2.34.本文在语言学知识的基础上,应用计算机技术设计和实现了蒙古文数词自动识别与翻译程序,旨在改善蒙汉统计机器翻译的性能.1蒙古文数词与对应的汉语数词分析为了用基于规则的方法实现蒙汉数词自动翻译(本文的研究包含与数词联系较大且在语料中经常出现的“年、月、日、时、分、秒”等时间词的自动翻译),首先需要对数词进行蒙汉对比研究,以此作为蒙汉数词自动翻

5、译的理论依据.1.1蒙古文数词与对应的汉语数词蒙古文数词分为基数词,序数词,集合数词,概数词,次数词,分数词,分配数词等7类].1.1.1基数词基数词从书写形式上分为阿拉伯数字和蒙古文形式.蒙古文中有“TEG(),NIGE(),H0YAR(),GVRBA(),DORBE(),TABV(e),JIRGVGA(佩),DOLOGA(),NAY—IMA(州),YISU(),ARBA(~),H0RI(),GVCI(),D0CI(),TABI(),JIRA(),DA—LA(),NAYA(~.4),YERE(

6、),JAGV(咿)'MINGGA(),T0ME(),BVM()'SAYA——(.)),J1w—A(.)),dUNGSIGVR(~)⋯”等基本数词,除了“HOYAR()”以外,其他数词在词干末都可以出现“N”,比如:“GVRBAN(a.~),BORBEN(,~4)⋯”.由基本数词合成的复合数词有无限多个,如:“ARBANNIGE(~J),HOYARJAGV(佃)⋯”等.其中负数词的形式为《SOGERGU(a)+收稿日期:2O14—09-24基金项目:内蒙古自然科学基金资助项目(2O12MSO918

7、);内蒙古师范大学研究生科研创新基金项目(cXJJS15111);内蒙古师范大学计算机学院蒙古文信息处理与机器翻译创新团队建设项目作者简介:乌丹牧其尔(1992一),女(蒙古族),内蒙古赤峰市人,内蒙古师范大学硕士研究生通信作者:王斯日古楞(197O一),女(土族),内蒙古锡林郭勒盟人,内蒙古师范大学教授,主要从事蒙古文信息处理和机器翻译研究.第3期乌丹牧其尔等:蒙汉机器翻译中的数词自动翻译研究基数词》对应汉语的《负+基数词》,对基数词进行翻译时从左到右按字翻译即可.1.1.2序数词蒙古文中序数

8、词的书写形式分为以下几类:(1)蒙古语中的《基数词+DVGAR/DUGER/DAHI/DEHI(/号口/))》对应汉语的《第十基数词》,如NIGEDuGER(),H0YARDAHIVDAGA(),其中“JIRGVGA()”和“DOLOG———A()”作为序数词时有形式上的变化:“JIRGVDVGAR(w口!),DOL0DVGAR(g口一)”.(2)《阿拉伯数字+dVGAR/dUGER(/口)》的形式,本文中的数词翻译对阿拉伯数字只识别不处理,所以对应的汉语数词为《第+阿拉伯数字》.(3)《基数词

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。