欢迎来到天天文库
浏览记录
ID:41868416
大小:170.00 KB
页数:18页
时间:2019-09-04
《商队(CARAVAN)解码器》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、商队(CARAVAN)解码器报告人:陈毅东ydchen@xmu.edu.cn厦门大学人工智能研究所2006年秋提纲概述模型、特征及参数搜索翻译流程剪枝使用简介实验及结果小结概述商队(Caravan)是一个开放源代码的统计机器翻译解码器。商队(Caravan)实现了基于词组的统计机器翻译模型。商队(Caravan)采用对数线性模型以融合多方面的特征。商队(Caravan)以动态规划算法实现了单调解码方式。模型、特征及参数(1)商队(Caravan)解码器翻译模型采用对数线性(Log-linear)模型(Och&Ney,2002)来融合多种特征
2、。模型、特征及参数(2)基本系统中引入了6个特征短语翻译概率:反向短语翻译概率:词汇化的短语翻译概率:反向词汇化的短语翻译概率:英语语言模型:英语句子长度:模型、特征及参数(3)我们目前仅简单地使用与计算所使用相同的配置:搜索商队(Caravan)实现了单调的基于词组的解码算法(Zensetal.,2002)。采用动态规划算法,相应的递归公式如下:翻译流程断句原文句子表合并译文表译文循环翻译表中每句话句子预处理后处理译文句子segtagICTCLAS语言模型文件双语词组文件neonsrilm.dll使用动态规划算法进行解码123使用史晓东教
3、授的分词系统进行分词时需要使用计算所的分词系统进行分词时需要使用史晓东教授的neon汉英翻译系统翻译未登录词时需要剪枝商队(Caravan)解码器搜索过程不剪枝。为了保证解码器翻译速度,双语短语翻译表中包含同一个汉语短语的条目建议不要超过20条。短语翻译表剪枝的依据是如下公式:压缩包CARAVAN.RAR中提供了DELBP工具实现了上述剪枝。使用简介(1)命令行格式:Caravan<.iniFile>s-flagr-flagnone,表示不分词(适用于输入文件已分词的情况)mandel,表示使用史晓东教授
4、的分词系统segtagict,表示使用计算所的分词系统ICTCLASppb,表示不进行后处理pbnw,表示使用史晓东教授的neon系统进行未登录词的翻译使用简介(2)配置文件格式[ce]cemtsdk_path=cemtsdksegtag_path=segtagictclas_path=ictlm_path=lmlanguage_model_file=ceall_en.bo3bilingual_phrases_file=cebp_nlpr_ict.txtp_c_e=0.03lex_c_e=0.03p_e_c=0.15lex_e_
5、c=0.16word_penalty=0.48language_model=0.13实验及结果(1)测试集语言模型文件双语短语文件对GIZA++的对齐后处理抽取短语bp1bp863_ict.txt计算所(利用一个词典)计算所bp2bp_ict_ict.txt计算所计算所bp3bp_ict_nlpr.txt计算所自动化所bp4bp_nlpr_ict.txt自动化所计算所bp5bp_nlpr_nlpr.txt自动化所自动化所t18632005测试集对话部分经过A3区转换和分词的中文部分t28632005测试集篇章部分经过A3区转换和分词的中文部
6、分lm计算所提供的在8632005训练集英语部分上训练的3元语言模型实验及结果(2)结果(bleu-4,大小写敏感)baseline用neon翻译未登录词用neon翻译未登录词+bp文件的预处理转换t1t2t1t2t1t2bp10.24490.16870.24710.17770.24660.1794bp20.23020.15540.23240.16530.23230.1666bp30.20690.14650.20840.15710.20550.1600bp40.23410.15380.23570.16120.24230.1642bp50.2
7、2260.15020.22390.15860.22650.1592实验及结果(3)结果(bleu-4,大小写不敏感)baseline用neon翻译未登录词用neon翻译未登录词+bp文件的预处理转换t1t2t1t2t1t2bp10.26050.17880.26300.18890.26220.1906bp20.24300.16410.24540.17550.24510.1767bp30.22130.15520.22300.16750.22070.1702bp40.24650.16260.24820.17130.25590.1745bp50.2
8、3470.15940.23610.16930.23970.1695实验及结果(4)两个特征词组数惩罚因子:原文译文长度一致性因子:结果(测试集t1,bleu-4,大小写敏感)用n
此文档下载收益归作者所有