一个汉英机器翻译系统的设计与实现.doc

一个汉英机器翻译系统的设计与实现.doc

ID:27743885

大小:47.50 KB

页数:6页

时间:2018-12-05

一个汉英机器翻译系统的设计与实现.doc_第1页
一个汉英机器翻译系统的设计与实现.doc_第2页
一个汉英机器翻译系统的设计与实现.doc_第3页
一个汉英机器翻译系统的设计与实现.doc_第4页
一个汉英机器翻译系统的设计与实现.doc_第5页
资源描述:

《一个汉英机器翻译系统的设计与实现.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、一个汉英机器翻译系统的计算模型与语言模型*本项目的研究受到863-306资助,合同号为863-306-03-06-2刘群+詹卫东++常宝宝++刘颖+(+中国科学院计算技术研究所二室北京100080)(++北京大学计算语言学研究所北京100871)摘要:本文介绍我们所设计并实现的一个汉英机器翻译系统。在概要介绍本系统的主要目标和设计原则的基础上,着重说明系统的计算模型和语言模型,最后给出实验结果和进一步的打算。关键词:自然语言处理机器翻译中文信息处理一、引言我国的机器翻译研究近年来取得了很大的发展。特别是英汉机器翻译系

2、统的研制已经取得了较大的成功,达到了初步实用的阶段。相对而言,汉英机器翻译的研究却进展比较缓慢,离实用化还有相当的距离[1]。我们的目的是利用目前最新的计算机软件技术、相对成熟的机器翻译方法和先进的汉语语法理论,构造一个初步实用的汉英机器翻译系统。本文将对我们所开发的系统所采用的计算模型和语言模型作一个总体性的介绍,而不涉及过多的细节。下面我们简要介绍一下本系统的几个主要设计原则:⑴采用成熟的技术我们的目的是构造一个真正实用的汉英机器翻译系统,因而在可供选择的若干技术路线面前,我们将尽量选用比较成熟的技术,而在现有技

3、术难以解决问题时再尝试一些新技术。⑵开放的体系结构开放的体系结构主要体现在系统的实现上所采用的软件构件技术[8]。整个系统采用一些相对独立的软件构件组成,因而可以方便地对系统进行修改、维护和扩充。翻译的过程严格按照独立分析、独立生成的原则进行组织,每一阶段的算法相互独立,对其中一个阶段算法的修改不会对其他算法造成影响。⑶方便的调试环境本系统强调为语言工作者提供一个方便的调试环境。系统提供多窗口图形界面的知识库调试工具,支持课题组中多人同时通过网络对一个知识库进行操作。提供对翻译过程直观显示,用户可以清晰地看到翻译过程

4、的每一步操作。提供翻译出错原因查找机制,用户可以轻松确定翻译出错的位置。机器翻译系统可依据不同的标准进行分类,这些标准也刻划出本系统的一些基本特点:(1)规则方法与语料库方法规则方法发展到今天,相对来说已比较成熟,但由于专家描述的规则知识通常颗粒度较大,不利于处理大量的细节,因而在处理大规模的开放语料时,遇到了难以克服的困难;而从预料库中获取的知识颗粒度较小,在自然语言处理的某些方面取得了成功,但纯粹基于语料库的的机器翻译系统,还没有比较成功的例子。本系统目前采用的是基于规则的技术,我们计划将其扩展成为一个规则方法与

5、语料库方法相结合的系统。(2)转换方法与中间语言方法从理论上说,在实现多种语言互译的机器翻译系统时,中间语言方法可以节省很多的工作量。但从已实现的系统来看,使用转换方法较易取得成功。本系统也采用转换方法。(3)确定性算法与不确定性算法确定性算法的优点是算法较为简单,翻译速度快,缺点是不能提供回溯的能力,翻译过程任何一步的错误将导致整个翻译的失败。不确定算法刚好相反。本系统采用不确定性算法,翻译过程的每一步骤都是不确定的,都可以回溯。二、计算模型我们从系统结构、知识表示、翻译算法三方面来介绍我们所采用的计算模型。管理调

6、试界面使用界面知识库子系统词典最终用户图1汉英机器翻译系统总体结构翻译子系统语言模型各类规则库实例库语言工作者语言工作者1、系统结构系统总体结构如图1所示。2、知识表示机器翻译的过程可以看成是一个运用知识进行推理的过程。知识表示是这一过程的基础。我们把机器翻译中用到的知识表示形式分为内部知识和外部知识两类。其中外部知识是存放于知识库之中,由语言工作者进行管理的知识,如词典和各类规则库等,内部知识是翻译过程中临时生成的,用于描述所翻译的句子的语法语义特征的知识,如树形图、特征结构和语义网络等。本系统的外部知识表示由知识

7、库子系统进行处理。知识库包括一个语言模型、一部词典、多个规则库和一个实例库。本系统设计的严格的语言模型起统帅作用,其中规定了本系统所使用的源语言和目标语言的词法模型、句法模型和语义模型,即词法、句法和语义的分类和各种属性描述。所有知识库中所用到的各种语言知识描述用的符号格式都必须符合语言模型中的规定。整个系统使用一部双语词典。多个规则库对应于翻译的各个步骤,每个步骤使用相应的规则库。每个规则库的具体格式各不相同,但基本上都采用“树结构+约束”的形式。在知识库的格式定义上,我们特别强调不仅要能描述全局性知识,也要能描述

8、一些局部性的知识。因此我们特别强调词典的描述能力。例如,词典中的局部规则与全局规则具有完全相同的格式,在使用上局部规则优先于全局规则,这样特别有利处理一些与具体词相关的特殊用法。实例库用于存放系统翻译过的句子及其相关信息。本系统的内部知识表示形式包括线图(Chart)、树结构和特征网络三种形式。线图源于ChartParsing算法,是一种比较通

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。