利用现有软件构建统计机器翻译系统

利用现有软件构建统计机器翻译系统

ID:5269891

大小:136.39 KB

页数:6页

时间:2017-12-07

利用现有软件构建统计机器翻译系统_第1页
利用现有软件构建统计机器翻译系统_第2页
利用现有软件构建统计机器翻译系统_第3页
利用现有软件构建统计机器翻译系统_第4页
利用现有软件构建统计机器翻译系统_第5页
资源描述:

《利用现有软件构建统计机器翻译系统》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、利用现有软件构建统计机器翻译系统刘洋中国科学院计算技术研究所数字化技术研究室yliu@ict.ac.cn1介绍本文的主旨是介绍如何利用现有软件在很短的时间内构建一个统计机器翻译(StatisticalMachineTranslation)系统。重点将放在具体的操作上,而不是相关的理论。2准备工作为了构建统计机器翻译系统,必须准备一下资源:[1]Linux操作系统(附带gcc)我用的是RedHatLinux3.2.2-5,gcc的版本是3.2.220030222。如果您不知道自己的Linux系统的版本

2、,可以输入以下命令查看:gcc-v。一般而言,只要版本不要太低的Linux都能胜任。[2]双语对齐语料库在本文演示的是建造将汉语翻译成英语的统计机器翻译系统,因此采用的汉英对齐语料库。我使用的是下载自http://www.nlp.org.cn/上的双语句对齐语料库,规模为1500句对。[3]目标语言语料库目标语言语料库是用做语言模型训练,在此为了简便,我采用了上述语料库中的1500句英语句子。[4]CMU-CamLanguageModelToolkitv2这是一个语言模型工具,用于生成语言模型,以便

3、解码器调用。[5]GIZA++v2(2003-09-30)这是一个翻译模型工具,实现了IBMModel1-5,并且加入了一些新的特色。其前身是GIZA。[6]mkcls(2003-09-30)这是生成wordclass的工具,是作为GIZA++的辅助程序。[7]汉语的切分工具和英语的tokenize工具这是对语料进行预处理时需要使用的工具。汉语的切分工具可以使用LDCChineseSegmenter,英文的tokenize工具可以选择EGYPT软件包中内含的一个工具tokenizeE.perl.tm

4、pl。3总体流程有了这些资源,我们就可以开始动手了。总体流程是这样的:[1]语料准备[1]构建语言模型[2]构建翻译模型[3]构建解码器4语料准备首先您需要编程(用您偏爱并且能熟练使用的编程语言)将汉语句子和英语句子分别从1500句对中抽取出来存在两个文本文件中,1500个汉语句子存放在文件chinese中,1500个英语句子存放在english中。每个句子一行,并且汉英对应句子的行号一一对应。然后,您需要对chinese中的汉语句子进行切分,也就是切成一个个的汉语词。对于english中的英语句子

5、进行tokenize。之后english用做语言模型的训练语料,chinese和english用做翻译模型的训练语料。5构建语言模型5.1语料预处理构建语言模型要用到的语料是english,但是需要对它进行一些改动。由于ISIRewriteDecoder采用XML文件格式作为输入文件,有一些标记如会用到。ISIRewriteDecoder要求语言模型必须能够识别,把它当作一个句子的开始。为此,在构建语言模型时我们需要做两件事:[1]写一个ContextCueFile(

6、.ccs),让语言模型知道是标记,而不是词汇。[2]在训练语料中包含,这样在语言模型生成的词典中能包含这两个条件缺一不可。5.2编译源代码下面开始才操作,我建立了一个文件夹/home/lonios/research/ICTSMTS,下载了CMU-Cam_Toolkit_v2.tar.gz,将解压后的文件夹CMU-Cam_Toolkit_v2复制到ICTSMTS目录中。目录/home/lonios/research/ICTSMTS/CMU-Cam_Too

7、lkit_v2下应当包含5个文件夹和两个文件:文件夹bin,doc,include,lib,src文件endian.sh,README首先当然要看一下README,里面讲述了编译源代码的方法。然后,进入src目录,找到Makefile,用vi打开,将"#BYTESWAP_FLAG=-DSLM_SWAP_BYTES"中的"#"去掉即可。如果使用的是PC,就必须这样做。之后键入命令“makeinstall”,这样就会编译源代码。编译成功后,去bin目录看看,就会发现已经生成了12个文件:binlm2ar

8、pa,evallm,idngram2lm,idngram2stats,interpolate,mergeidngram,ngram2mngram,text2idngram,text2wfreq,text2wngram,wfreq2vocab,wngram2idngram关于这12个文件的用法,请您参考相关文档。5.3生成语言模型将english复制到bin目录中,将其重命名为“a.text”。然后在a.text中添加“”和“”,最好是分别置于一个句子的首

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。