构建大规模的汉英双语平行语料库

构建大规模的汉英双语平行语料库

ID:32393520

大小:221.13 KB

页数:8页

时间:2019-02-04

构建大规模的汉英双语平行语料库_第1页
构建大规模的汉英双语平行语料库_第2页
构建大规模的汉英双语平行语料库_第3页
构建大规模的汉英双语平行语料库_第4页
构建大规模的汉英双语平行语料库_第5页
资源描述:

《构建大规模的汉英双语平行语料库》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、1构建大规模的汉英双语平行语料库111,21柏晓静常宝宝詹卫东吴拥华1(北京大学计算语言学研究所,北京100871)2(北京大学中文系,北京100871)E-mail:{baixj,chbb,zwd,wyongh}@pku.edu.cn摘要:双语语料库在机器翻译研究中的作用已日趋明显,但作为一项重要的语言资源,双语平行语料库的系统性构建在中国国内尚未得到充分的关注。本文介绍一个大规模汉英双语平行语料库的构建工作,包括其总体规划、实施模型和流程细节。该工作的深入和展开将促进作为机器翻译基础资源的双

2、语语料库建设,从而推动相关的理论研究和应用技术不断向前发展。关键词:机器翻译;双语平行语料库;语料库构建引言近年来,双语平行语料库在机器翻译和机器辅助翻译中的应用已经得到越来越多的认可,基于双语平行语料库的各种方法不仅能够改进机器自动翻译的质量,还可以加强机器辅助翻译中的人机交互。目前在中国国内,相关的研究和介绍主要侧重于双语语料的对齐技术和双语平行语料的应用技术,但对大规模双语平行语料库的系统性构建却关注较少。就汉英对照语料而言,国内尚且没有超过10万句对的平行语料库。作为一项重要的基础资源,

3、双语平行语料库的建设仍处于滞后状态,影响了相关的理论研究和应用技术的发展。北京大学计算语言学研究所同中国科学院计算技术研究所、清华大学智能技术国家重点实验室联合开发“面向新闻领域的汉英机器翻译系统”。在这个采用多引擎机制的机器翻译系统中,双语平行语料库将主要服务于基于存储的翻译引擎。作为该课题的子任务之一,一个大规模汉英平行语料库正在建设之中。本文介绍我们构建这个汉英平行语料库的系统性流程以及该语料库目前的建设情况。论文第1节总体介绍语料库构建的规划和模型,第2节详细介绍语料库构建的流程和相关经

4、验,以及语料库现状的基本统计数据,最后是对进一步工作的展望。1语料库构建的规划和模型构建大规模双语平行语料库,现阶段的应用目标是一个多引擎结构的汉英机器翻译系统。我们用这个语料库为基于存储的引擎提供翻译实例,并从中挖掘学习各种细粒度翻译知识,供其他翻译引擎使用。此外,我们也希望该语料库在逐步趋向平衡后,能够服务于双语词典编纂、双语术语自动提取、双语对比研究以及双语教学等其他研究领域。在北大计算语言学研究所英汉机译MTE测试集语料的基础上,我们将整理、加工大量汉英对照的真实语料,同时继续收集语料,

5、建成一个大规模的双语平行语料库。目前已经收1本文工作得到国家973项目资助(项目编号:G1998030507-4)。集到汉英对照语料中文约2,000万字、英文约1,000万单词,包括政府白皮书、政府公文、新闻、杂文、演讲词、科技文献、学术论文、政治专著、法律文献、小说、剧本、诗歌、杂文、圣经、神话、口语语料等。构建双语平行语料库的核心任务是双语语料的加工和语料库的组织,为了更好地开展这两项工作,保证语料库的质量和规模,并且合理、有效地推进语料库建设,我们需要一个相对完整、便于操作的语料库构建流程

6、。为此,我们对双语语料本身以及语料的整理和加工、语料库的组织和检索等项任务进行了考察,分析问题的复杂性,初步形成了一个双语平行语料库构建流程的模型(见图1),并为流程的各个环节开发了相应的辅助工具。图1双语平行语料库构建流程模型2语料库的构建2.1语料的采集在进行语料采集时,需要考虑两点因素:一是原始语料本身的质量,二是语料库的应用目标。语料的质量主要就其语言质量、翻译质量及语料保存的规范性而言。我们的原始语料大部分从因特网上下载。在实际操作中,我们的体会是,《英语世界》等双语期刊发布的电子版双

7、语语料(杂文居多)、以及官方网站发布的双语语料(政府公文和正式新闻居多)的语言和翻译质量较高。此外,语料的保存格式是否有利于整理加工、语料中乱码的情况等因素是衡量语料规范性的重要指标。语料的采集还应根据语料库建设的近期目标和长远目标来灵活安排。我们收集的双语语料涉及不同的文体、领域、语体和创作时期。由于这个语料库的直接应用目标是面向新闻领域的汉英机器翻译系统,理想的语料应该是新闻领域的汉英语料,但是可用的汉英、英汉新闻语料是非常有限的。鉴于非新闻领域的双语语料也将有助于翻译知识的获取,又鉴于双语

8、语料库作为一项基础资源还将有其它的应用目标,我们遵循新闻领域优先、但不限于新闻领域的原则,在已收集到的双语语料中筛选出一部分先进行整理、加工。这部分语料包括政府白皮书、政府公文、新闻、杂文、演讲词、科技文献、学术论文、政治专著等。目前我们已经积累句子一级对齐的汉英双语语料近55,000句对(含MTE测试集),预计今年年底还将增加约55,000句对。剩余语料的整理和加工今后将分期分批进行。语料的收集工作仍在继续,新加入的语料将有助于改善我们这个双语语料库的平衡性,从而扩大其应用范围。2.2语料的整

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。