机器翻译研究现状与展望

机器翻译研究现状与展望

ID:46465807

大小:66.50 KB

页数:8页

时间:2019-11-24

机器翻译研究现状与展望_第1页
机器翻译研究现状与展望_第2页
机器翻译研究现状与展望_第3页
机器翻译研究现状与展望_第4页
机器翻译研究现状与展望_第5页
资源描述:

《机器翻译研究现状与展望》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科。现代理论语言学的发展、计算机科学的进步以及概率统计学的引入,对机器翻译的理论和方法都产生了深刻的影响。Weaver机器翻译思想的提出,开始了机器翻译的研究热潮。Chomsky在50年代后期提出的短语结构语法,给出了“从规则生成句子”的原则。由于短语结构语法采用单一标记的短语结构來描述句子的构成,描述粒度过粗,因此存在约束能力弱、生成能力过强问题,人们逐渐意识到仅依靠单一的短语结构信息,不能充分判别短语类型和确认短语边界,于是,复杂特征集和词汇主义被引入自然语言语法系统,广义短语

2、结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应地产生。在这个发展过程中,基于规则方法一直是机器翻译研究的主流。在基于规则的方法中,语言规则的产生需要大量的人力,而且大量的语言规则之间往往存在着不可避免的冲突。另外,规则方法在保证规则的完备性和适应性方面也存在着不足。而此时,统计学方法在自然语言处理的语音识别领域取得了比较好的效果,于是,基于统计的机器翻译应运而生。随着双语语料的大量增加、计算机性能的提高,基于实例的机器翻译方法被提出,并由此泛化产生了基于模板的机器翻译方法。卜'面我们分别介绍几种典型的机器翻译方法:(1)基于规则的

3、机器翻译方法从Chomsky提出转换生成文法后,基于规则的方法一直是机器翻译研究的主流,Chomsky认为一种语言无限的句子可以由有限的规则推导出来。早期的机器翻译系统,从体系结构上可以分为直译式、转换式和中间语言式,它们的不同之处在于对源语言分析的深度,它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中,转换式的基于规则方法对源语言分析得比较深,它涉及到词汇结构分析、语法分析、语义分析,并完成词汇、语法、语义三层结构从源语言到目标语言的转换,而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系,它

4、比中间语言方法更容易获得高质量的翻译结果。因此,转换式的方法更多地被应用在早期的机器翻译系统中,整个翻译过程被分为,源语言分析部分,转换部分和冃标语生成部分。而早期的系统,如德国西门子的METAL系统、美国的SYSTRAN系统、日本立公司的ATHENE系统以及中国中软公司的HY-1汉英系统,都是基于转换的机器翻译系统。基于规则的机器翻译的优点在于,规则可以很准确地描述出一种语言的语法构成,并且可以很直观地表示出来。机器可以按照一组规则来理解它面对的自然语言,这组规则包含了不同语言层次的规则,包括用以对源语言进行描述的源语言分析规则、用以对源语言/目标

5、语言Z间的转换规则以及用于生成目标语的生成规则。由此可见,基于规则的机器翻译的核心问题是构造完备的或适应性较强的规则系统。但是,规则库的建立需要花费大量的人力和物力,即使如此,规则的完备性仍然不能得到保证,规则库很难覆盖所有的语言现象。随着规则数量的增加,规则Z间的冲突很难避免;很难用系统化的规则分类体系、恰当的规则粒度去刻画语言特征。而且早期的规则系统采用的都是确定性规则,即,非此即彼的规则,系统的适应性很差。基于上述问题,如何口动地获取语言规则、如何更好地表示规则以及如何更好地增强系统的适应能力成为研究人员关注的焦点。随着大量语料库的产生,统计方

6、法为我们提供了很好的从己有的语言资源中自动得到我们所需要的语言信息的工具。复杂特征集和合一运算的提出也使得我们能以更细的粒度、更加准确的知识表示形式来描述规则,而词汇化的信息也更多地来口于标注语料库。针对确定性规则降低了系统的鲁棒性的弱点,概率上下文无关文法川从全局最优的角度考虑,产生最优的翻译结果,为机器翻译系统的实用化奠定了基础。随着这些方法的引入,传统的基于规则的机器翻译方法研究逐步发展成为对以规则为基础、语料库方法为辅助的高性能机器翻译方法的研究。(1)基于统计的机器翻译方法除了在某些特定的受限领域,基于规则的机器翻译,取得了比较好的效果Z外

7、,在大部分的实验中,基于规则的机器翻译远远没有达到人们的耍求。而随着语料库语言学的发展和统计学、信息论在自然语言处理领域的应用,人们尝试着用统计的方法进行机器翻译的研究。对于机器翻译来说,基于统计的方法可以从两个层面上来理解,一种是指某些概率统计的方法在具体的机器翻译过程中的应用,比如用概率统计的方法解决词性标注的问题、词义消歧的问题等;另一种较狭义的理解是指纯粹的基于统计的机器翻译,翻译所需的所有知识都來源于语料库木身。(1)基于实例的机器翻译方法基于实例的机器翻译思想最早是由Nagao提出,其基本思想是,在已有的源语言实例句库屮,待翻译句子按照类

8、比原理匹配出最相似的实例句,取岀实例句对应的目标语句子,进行适当的改造,最终得出待翻译句了所相应的目标语句了

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。