服务于汉英机器翻译的双语对齐语料库和短语库建设.pdf

服务于汉英机器翻译的双语对齐语料库和短语库建设.pdf

ID:52286233

大小:259.87 KB

页数:8页

时间:2020-03-26

服务于汉英机器翻译的双语对齐语料库和短语库建设.pdf_第1页
服务于汉英机器翻译的双语对齐语料库和短语库建设.pdf_第2页
服务于汉英机器翻译的双语对齐语料库和短语库建设.pdf_第3页
服务于汉英机器翻译的双语对齐语料库和短语库建设.pdf_第4页
服务于汉英机器翻译的双语对齐语料库和短语库建设.pdf_第5页
资源描述:

《服务于汉英机器翻译的双语对齐语料库和短语库建设.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、服务于汉英机器翻译的双语对齐语料库和短语库建设*††常宝宝詹卫东柏晓静吴云芳张化瑞北京大学计算语言学研究所,100871†北京大学中文系,100871{chbb,zwd,baixj,wuyf,hrzhang}@pku.edu.cn摘要:机器翻译研究是一项十分具有挑战性的课题,机器翻译系统的翻译质量不但依赖于机器翻译方法和语言计算模型的创新性研究,也有赖于服务于机器翻译的语言资源的建设和积累,本文描述了服务于汉英机器翻译翻译的双语对齐语料库以及汉英双语短语信息数据库的描述内容以及在机器翻译中的部分应用情况。关键词:双语对齐

2、语料库双语短语信息数据库机器翻译一、引言从四十年代后期开始,机器翻译研究已经进行了五十多年,在这期间,机器翻译方法和系统都有了很大的进展。目前已有很多商品化的机器翻译系统在售。近年来,和Internet紧密结合联机翻译系统也有了很多发展,用户可以通过Internet访问和使用机器翻译系统,联机机器翻译系统在帮助用户阅读网上外文材料已经开始发挥作用。尽管如此,目前机器翻译系统不能令人满意的现状也不容否认。机器翻译问题仍然是一个十分具有挑战性的课题。机器翻译系统表现不佳的原因是多方面的,其中一个很重要的原因在于资源缺乏,无论

3、采用何种机器翻译方法,都需要大量大规模的知识资源。基于规则的机器翻译系统需要大量的规则知识、词典知识。基于统计的方法和基于实例的方法需要大规模的双语对齐语料。一个好的机器翻译系统所必备的资源往往需要经年累月的积累。北京大学计算语言学研究所、中国科学院计算所以及清华大学自2000年以来在国家重点基础研究项目(973)支持下,一直在致力于开发一个“面向新闻领域的汉英机器翻译系统”。为了综合运用机器翻译研究近年来所取得的各项研究成果,该系统被设计成为一个微引擎流水线结构(QunLiuetal.2001)。在系统中,机器翻译的各

4、个功能部件或同一功能的不同策略分别对应于系统中的一个个微引擎,在系统运行时,各个微引擎同时发挥作用,然后由系统进行评价综合,选择或组合出最优的处理结果。从微观角度看,目前该系统可以使采用不同方法的词法处理模块、句法处理模块等共处于一个系统之中,从宏观角度看,系统也允许把目前提出的不同的机器翻译方法以多引擎的方式组织起来。目前该系统中,不仅仅有一个基于规则的转换式机器翻译引擎,同时也有基于实例的机器翻译引擎和短语翻译引擎。这些微引擎要充分发挥作用,各项基础资源建设就显得至关重要。本文主要介绍围绕这一系统的研发我们在双语资源

5、建设方面所进行的努力。内容主要集中在双语语料库以及双语短语信息数据库的建设。二、机器翻译系统对双语对齐语料库和双语短语信息数据库的需求构建汉英双语对齐语料库以及汉英双语短语信息数据库的主要目标是为汉英机器翻译系统提供资源和服务。在面向新闻领域的汉英机器翻译系统中,目前已经实现了一个基于实例的翻译引擎,基于实例的翻译引擎维护着一个汉英双语翻译实例库,在实例库中存储着句*本文工作得到国家重点基础研究项目(973)支持,项目号为G1998030507-4。子一级对齐的汉英翻译实例。翻译用户输入待翻译的汉语句子后,基于实例的翻译

6、引擎利用用户输入的汉语句子到实例库中寻找类似的翻译实例,如果在实例库中存在类似的翻译实例,引擎则对实例中的译文部分进行修改作为待翻译句子的译文输出。对于基于实例的翻译引擎而言,实例库对真实文本的覆盖率将是影响实例翻译引擎翻译质量的一个很重要的因素,只有实例库达到一定的规模,基于实例的翻译引擎在翻译匹配时,才能保持足够的命中率,基于实例的翻译引擎才能发挥一定的作用。双语对齐语料库建设的直接应用目标正是为基于实例的翻译引擎提供翻译实例。其次,双语对齐语料库也为挖掘各种机器翻译知识提供了一个基础资源,例如可以基于双语对齐语料库

7、挖掘词语和短语的对译知识,训练统计翻译模型等等。同时,双语对齐语料库除在机器翻译领域的应用价值外,在语言教学和研究领域、辞书自动编纂领域也有着重要的应用价值。建设汉英双语短语信息数据库的初衷是改善基于规则的翻译系统的译文质量,根据观察在规则翻译引擎的翻译过程中,短语处理不当常常会造成翻译失败和翻译质量问题。首先待译中文句子中有时候会包含一些难以分析的短语,由于短语的分析失败,从而导致整个句子的分析失败,进而翻译失败。其次,有时候,即使分析成功,但句中的某些短语的翻译不能通过逐词对译的方式进行翻译,短语需要作为一个整体来进

8、行翻译。有些短语即使可以通过逐词对译的方式进行翻译,但短语的各个组成成分均是多义词,很容易因为译词选择不恰当造成翻译错误。在机器翻译系统中增加有关短语结构及其译文的知识有利于减轻由于短语处理不当造成的翻译问题。三、汉英对齐双语语料库汉英句子对齐语料库目前描述了下面的内容:(1)文本属性信息对于收录的任何一对双语文本,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。