面向汉英机器翻译的双语语料库的建设及其管理.pdf

面向汉英机器翻译的双语语料库的建设及其管理.pdf

ID:52287170

大小:210.06 KB

页数:5页

时间:2020-03-26

面向汉英机器翻译的双语语料库的建设及其管理.pdf_第1页
面向汉英机器翻译的双语语料库的建设及其管理.pdf_第2页
面向汉英机器翻译的双语语料库的建设及其管理.pdf_第3页
面向汉英机器翻译的双语语料库的建设及其管理.pdf_第4页
面向汉英机器翻译的双语语料库的建设及其管理.pdf_第5页
资源描述:

《面向汉英机器翻译的双语语料库的建设及其管理.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、*面向汉英机器翻译的双语语料库的建设及其管理†常宝宝詹卫东张华瑞北京大学计算语言学研究所,北京,100871†北京大学中文系,北京,100871一、引言近年来,在语言信息处理的研究和开发中,单语和多语语料库(以双语语料库居多)的作用日益突显出来。特别是在机器翻译研究中,人们提出了多种基于双语语料库的新方法,例如采用所谓的基于实例(Example-Based)的或基于存储(TranslationMemory)的机器翻译方法,可以直接使用经过对齐的双语语料改善机器译文的质量。此外,也可以通过统计模型从双语语料库中获取双语词典和翻

2、译模式,从而改进传统的机器翻译方法。除中文信息方面的应用之外,双语语料库的建设对于双语词典编纂、跨语言的对比研究也具有重要价值。目前关于双语或多语语料库的研究大致可分为三类:一是研究双语语料的对齐技术(Alignment),国内外学者就此提出多种策略和方法,现在已经出现了许多对齐双语或多语语料的程序或工具[Gale1993];二是研究双语语料的各种应用,如在基于统计的机器翻译技术[Brown1990]、基于实例的机器翻译技术[Nagao1984],双语词典编纂[KlavansandTzoukermann1990]技术中,双语

3、语料库都发挥着十分重要的作用;三是双语语料库的设计、采集、编码和管理问题。目前比较著名的语料库编码方案有TEI文本编码标准以及CES标准,两者均基于SGML标记语言。就前两类研究来说,中国国内目前做了较多的跟踪研究工作,而对于第三类研究,即双语语料库尤其是涉及汉语的双语语料库的建设、编码和管理研究,探索工作似乎做的相对较少。与此相关,目前国内外都还没有见到有关系统的、经过深度加工的、以汉语为源语言的双语语料库的报道。北京大学计算语言学研究所、清华大学智能技术国家重点实验室和中国科学院计算所三家单位联合承担了国家973课题——

4、“面向新闻领域的汉英机器翻译系统”的研制开发任务。系统决定采用基于多种方法的多引擎体系结构(将基于规则的方法与基于语料库的方法相结合)。为此,需要建立一个具有一定规模的经过对齐处理的汉英双语语料库。本文将简要介绍这样一个服务于汉英机器翻译的双语语料库的设计、收集、编码和加工的情况。二、语料库的设计和语料收集语料库建设是一项工作量极大的工作,因为一个有实际应用价值的语料库决不是任意文本的任意集合,其文本类型、大小以及语料的构成都必须根据应用需求,经过仔细的设计,只有这样才能保证所投入的工作是值得的。我们认为,设计一个双语语料库

5、,首先应该考虑语料库的应用目标。语料的收集、语料的构成以及对语料的加工应该紧紧围绕语料库的应用目标进行。作为服务于一个面向新闻领域的汉英机器翻译系统的双语语料库而言,在语料的收集、加工等方面,应该跟服务于其他目的(比如语言研究)的语料库有所区别。服务于汉英机器翻译的语料库是一个专用的语料库,而不是一个通用的语料库。在这个前提下,我们不强调语料库中的语料对汉语文本的覆盖性。在对语料的内容、语料库中的文本类型、文本的创作时间、语料库的结构进行选择时,应以是否有助于面向新闻领域的汉英机器翻译为准则进行。最为理想的情况是,语料库中的

6、语料能够形成全部新闻语料的一个统计样本。然而*本文工作得到了国家973项目的资助(项目编号:G1998030507-4)构造一个这样的语料库并非易事,这需要有足够的机器可读的新闻语料作为取样基础。结合上述理论思考以及现实条件下的电子文本的实际情况,我们确定了下面的语料收集原则:1)收入语料库的文本最好是报道类型,不过也可以包含一些具有良好英语译文的同新闻报道在内容和结构上具有相似性的语言材料。因此除了新闻报道类型,我们也收集了一些新闻发布会文告、政府白皮书和一些杂文以及它们的英语译文。2)双语材料最好以汉语作为源语言,因为语

7、料库的服务对象是汉英机器翻译系统,但也酌情收集了一些具有非常流畅自然的中文翻译的英语材料。3)文本应以全文形式收入语料库,这将有益于篇章知识的获取和学习,一个实用的机器翻译系统最终必须面对全文的翻译。4)就创作时间而言,所有收入的文本应当是最近几年的文本,这样才能够反映当下语言的实际使用情况。在上述原则的指导下,我们收集了大约100万字的汉语全文语料及其英语译文。这些语料基本来源于国际互联网。大致可分为四类:新闻报道、新闻发布会文稿、白皮书以及杂文。其构成比例如图1所示:23%29%新闻报道新闻发布会文稿政府白皮书23%杂文

8、25%图1.双语语料库的语料组成三、语料库的编码管理这些平行语料的理想方式是设计一个专用管理系统。语料库中所有语料均需按照同样的方式编码或标记。这可以使得语料库能够独立于软件平台和具体的应用程序,具有教强的数据可交换性。目前国际上有两个著名的语料库标记标准建议方案,一个是正处在开发之中的语

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。