机器翻译技术的发展及其应用

机器翻译技术的发展及其应用

ID:34895866

大小:33.50 KB

页数:5页

时间:2019-03-13

机器翻译技术的发展及其应用_第1页
机器翻译技术的发展及其应用_第2页
机器翻译技术的发展及其应用_第3页
机器翻译技术的发展及其应用_第4页
机器翻译技术的发展及其应用_第5页
资源描述:

《机器翻译技术的发展及其应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、机器翻译技术的发展及其应用刘群(北京大学计算语言学研究所,中国科学院计算技术研究所)关键词:机器翻译,中文信息处理,计算语言学,自然语言处理摘要:本文结合一些典型的机器翻译系统,综述了近年来机器翻译技术的发展,分析了这些技术的优缺点,探讨了机器翻译技术的发展趋势。最后介绍了目前机器翻译应用方面的情况。AdvancesofMachineTranslationTechnologyanditsApplicationsKeywords:MachineTranslation,ChineseInformationProce

2、ssing,ComputationalLinguistics,NaturalLanguageProcessingAbstract:Bydecryptingseveralfamousmachinetranslationsystems,thepaperintroducestherecentadvancesofmachinetranslationtechnologies,analysestheadvantagesanddisadvantagesofthesetechnologies,anddiscussesthetr

3、endofthefuturedevelopment.Theapplicationofmachinetranslationisintroducedatlast.一.引言几乎就从计算机诞生之日起,人们就试图利用计算机来进行自然语言的翻译工作。不过,机器翻译的先驱者们也许没有想到,人类进入二十一世纪后,计算机早已渗透到人类生活的方方面面,计算机技术的发展已经远远超过了他们所能够想象到的程度,而机器翻译却依然没有达到理想的水平。纵观机器翻译的发展历史,应用一直是推动机器翻译发展最主要的动力。尽管机器翻译经历了如此曲折的

4、发展历程,尽管机器翻译的质量到现在为止还远不能令人满意,机器翻译技术的发展却一刻也没有停止。尤其是近年来,Internet的普遍应用,世界经济一体化进程的加速,使得人们对于机器翻译的需求也空前增长,机器翻译的研究也迎来了一个新的发展机遇。本文将从技术与应用两方面对机器翻译技术近年来的发展作一个回顾。二.机器翻译技术的进展与其他自然语言处理技术一样,机器翻译技术从总体上也可以分为基于规则和基于语料库两大类。关于这两类方法的优点和缺点,很多文章都做过详细的分析,这里不再重复。本文将采用个例分析的方法,通过介绍几个典

5、型的机器翻译系统,向读者展示机器翻译系统的一些新的技术和新的思路。希望读者能够了解到机器翻译技术的最新进展并从中获得启迪。1.IBM的统计机器翻译模型IBM公司开发的一个英法机器翻译系统采用的基于统计的机器翻译方法。其基本思想是,把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。系统需要翻译的是一段源语言文本S,该模型假设S是由一段目标语言T经过某种形式的编码得到的,将S翻译成T的过程就是一个解码的过程。根据Bayes公式可推导得到:。这里,P(T)目标语言的文本T出现的概率,称为语言模型。

6、P(S

7、T)是由目标语言文本T翻译成源语言文本S的概率,称为翻译模型。语言模型只与目标语言相关,与源语言无关,翻译模型与目标语言和源语言都有关系。对这两种模型的不同推导,可以得到不同形式的基于统计的机器翻译数学模型。而建立这些模型的所有数据,都必须来源于对大规模语料库的统计。IBM公司PeterBrown等研究者按照这种方法,以英法双语对照加拿大议会辩论记录为双语语料库,开发了一个英法机器翻译系统。从他们发表的文章来看,实验的结果相当不错,已经超出了传统的基于规则的翻译系统。不过,这种成功可能与两方面的因素有关

8、:一是英法语言相当接近,语序的调整很小;其次有很好的对齐语料库作为基础。可惜的是,这项工作后来并没有继续下去,其他类似的工作也没有再重复过这么好的结果。2.Microsoft公司的多国语机器翻译项目微软研究院(美国)开展了一个多国语机器翻译项目,该项目采用的是一种基于规则的方法。在该项目中,每一种语言有一个独立的开发小组,开发该种语言的分析器。系统提供统一的分析器开发工具平台——G语言。G语言是一种专门为自然语言处理设计的形式语言,采用C语言的语法形式和类似Lisp表的数据结构。G语言代码可以快速转化成C语言代

9、码,经过编译后就直接得到了可执行程序的句子分析器。开发句子分析器的过程就是编写G语言代码的过程,所有的句子分析规则都以G语言代码的形式体现出来。句子分析的结果是一种逻辑表达式。各种语言的逻辑表达式并不统一,但采用相同的语法形式。在该系统中,并没有专门的转换规则,转换规则的获取是利用双语语料库中全自动进行的。目前他们采用的语料库是微软的产品说明书,是句子对齐的,数量相当庞大。对齐的方法是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。