欢迎来到天天文库
浏览记录
ID:52289296
大小:392.83 KB
页数:54页
时间:2020-03-26
《中科院基于短语的统计机器翻译系统.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于短语的统计机器翻译系统“丝路”1.0版(SilkRoadV1.0)设计与使用说明中科院计算所中科院自动化所中科院软件所厦门大学哈尔滨工业大学2006年10月引言“丝路”(SilkRoad)是一个基于短语的汉英统计机器翻译系统。该系统由中国的五家研究机构和高校联合开发(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学),并在2006年中国第二届统计机器翻译研讨会上发布,供国内外研究者共享使用。联合开发单位希望通过这个系统的发布,使更多的研究者能够更快、更容易地加入到统计机器翻译研究中来,推动国内统计机器翻译的迅速发展。本文档给出了“丝
2、路”1.0版(SilkRoadV1.0)的设计与使用说明。系统采用了目前主流的基于短语的统计机器翻译方法。在系统实现上充分利用了国际上目前已有的一些资源,包括一些开放源代码工具和一些可以公开获得授权的工具。在此基础上,联合开发单位分工协作,补充完成了翻译系统中尚不能公开获得的关键模块,包括语料库预处理、后处理模块,词语对齐后处理模块,短语抽取模块,解码器模块等。本文档主要介绍系统的整体设计以及这些新开发模块的实现原理和使用说明。联合开发单位的具体分工如下:中科院计算所:总体设计、语言模型接口设计和“骆驼CAMEL”解码器;中科院软件所:语料的预处理、后处理
3、模块“仙人掌”;中科院自动化所:词语对齐后处理模块“楼兰”和短语抽取模块“胡杨”;厦门大学:“商队Caravan”解码器;哈尔滨工业大学:“绿洲Oasis”解码器;解码器是统计翻译系统的核心模块,有三家单位分别开发了自己的解码器模块。这三个解码器是相互独立的,用户可以选择使用其中任何一个解码器来完成翻译过程。此外,该系统在实现时采用了“863中文信息处理与智能人机接口评测”2005年汉英机器翻译评测的数据集,包括训练集、开发集和测试集,这些数据可以通过ChineseLDC获得研究目的授权。2目录目录.............................
4、.....................................................................................31“丝路”系统设计概述...............................................................................41.1基于短语的统计机器翻译模型........................................................................................
5、......41.2系统流程.................................................................................................................................41.3模块划分.................................................................................................................................6
6、1.4已有资源和工具简介.............................................................................................................71.5数据格式定义.........................................................................................................................82训练模块设计与使用..................
7、..............................................................172.1训练语料预处理...................................................................................................................172.2词语对齐...................................................................................
8、.................................
此文档下载收益归作者所有