欢迎来到天天文库
浏览记录
ID:8398879
大小:97.00 KB
页数:6页
时间:2018-03-26
《汉蒙藏维语言翻译方法研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、汉、藏、蒙、维多民族语言语音翻译方法研究解国栋曹文洁宗成庆徐波中国科学院自动化所模式识别国家重点实验室,北京100080,中国E-mail:{gdxie,caowj,cqzong,xubo}@nlpr.ia.ac.cnTel:+86-10-82614468摘要汉语与少数民族语言之间机器翻译的研究对于促进少数民族地区经济文化发展具有很重要的意义,目前这方面可投入的人力物力是十分有限的。对于汉、藏、蒙、维语言之间互译来说,基于中间语言的翻译方法,是一种经济有效的途径。本文介绍了一种基于中间语义表示(IF)实现汉、藏、蒙、维多语言语音翻译的基本思想,并介绍了面向IF的鲁棒的汉语口语解析方法以及基
2、于IF的汉语英语生成方法。关键词:少数民族语言,中间语言,IF,解析,生成1.引言我国有56个民族,大多数的民族都有自己独特的语言。随着社会的发展,各民族之间的经济文化交流越来越频繁,在此过程中,语言的差异是一个客观现实,由此带来的相关问题,是制约少数民族地区经济文化发展一个重要因素,因此,有必要进行少数民族语言与汉语之间的多语言机器翻译研究,这对促进少数民族地区经济发展、促进各民族之间文化交流以及民族团结都具有重大的意义。另外,各个少数民族都有自己独有的风俗文化,对这些风俗文化进行研究、保护和开发,无论从社会还是经济上,都有着深远的意义,而语言是这些风俗文化最直接的载体,这也对语言翻译提
3、出了要求。目前,少数民族语言的机器翻译研究,虽然取得了一定的成绩,但是,由于经济、文化、资源、历史等众多的原因,还停留在起步阶段,很多问题都有待进一步研究[12]。少数民族中,藏族、蒙古族和维吾尔族各自拥有本民族的语言,在自然语言处理方面的研究起步也比较早,有了一定的基础,而且这三个民族地区人口比较多,因此,有必要把汉、藏、蒙、维语言之间的机器翻译研究作为当前的少数民族语言机器翻译研究的一个主要任务。目前蒙古文机器翻译系统有王斯日古楞等人研制的英蒙机器翻译(EnglishMongolianMachineTranslation,简称EMMT)系统,内蒙古大学那顺乌日图等研制的汉蒙机器翻译系统
4、,这两个系统目前都尚处于研究阶段[12]。藏语的计算机处理目前的研究重点大致包括藏文编码标准及平台建设、藏语语法研究、分词标准、电子词典建设等阶段,也有一些机器翻译系统[15]。关于维吾尔族语的计算机处理方面研究也主要集中在维吾尔语的编码标准及平台建设方面。在诸多的机器翻译实现方法中,有一种基于中间语言的方法,这种方法利用一种人工制定的标准语言作为语言翻译的中介,即首先把源语言解析为中间语言的表示形式,然后再由这种中间语言生成目标语言。对于一个多语言翻译系统,如果采用转换的方法,则不同方向的翻译需要不同的翻译模块,比如英译汉和汉译英分别需要一个翻译模块。假设有N种语言需要进行互译,总共则需
5、要N*(N-1)个翻译模块,而采用中间语言的方法,由于对每一种语言只需实现将该种语言翻译成中间语言和把中间语言翻译成该种语言这两个模块,对于N种语言之间的互译,总共只需要2N个翻译模块,这一过程如图1所示,因此,采用基于中间语言的翻译方法进行多语言的互译,能够降低系统的复杂性,是一种经济有效的途径。非基于中间语言的方法,包括基于规则的转换方法和基于语料库的统计方法。基于规则的方法,首先需要对源语言进行分析,然后根据目标语言的特点,把分析结果转换成目标语言。这一过程中,除了要对源语言进行各方面的研究外,还要对目标语言进行研究,需要懂源语言和目标语言的专业人员编写大量的规则和建立词典。而基于语
6、料库的统计方法,则首先需要收集大量的双语语料,即一句源语言对应一句目标语言,然后对双语语料进行对齐,在此基础之上,进行统计模型的训练。总之,无论是基于规则的转换方法还是基于语料库的统计方法,都需要投入比较多的人力和物力,而少数民族语言的机器翻译研究,受到各种条件的限制,可投入的资源特别是人力是很有限的,因此,采用中间语言作为中介进行翻译,每个民族只需负责把本民族语言转换为中间语言和把中间语言产转换为本民族语言,就可以实现本民族语言和其他语言的互译,这在一定程度上,能够节省人力和物力,不失为一种可行的途径。语言1语言3语言4语言2语言1语言3语言4语言2中间语言a.基于转换的方法b.基于中间
7、语言的方法图1转换方法和中间语言方法所需不同翻译模块的比较早期的中间语言主要有法国的CETA实验室的“枢轴语言”(pivotlanguage),该中心利用它进行了数学、物理文献方面的俄-法翻译系统[16],2000年日本联合国大学的Uchida提出了一种UNL(UniversalNetworkLanguage)语言[19],用来进行多种语言的翻译。成立于1990年的成立C-STAR(ConsortiumofSpeechT
此文档下载收益归作者所有