中科院自动化所评测技术报告(SYSTEMII).ppt

中科院自动化所评测技术报告(SYSTEMII).ppt

ID:50364304

大小:285.50 KB

页数:17页

时间:2020-03-12

中科院自动化所评测技术报告(SYSTEMII).ppt_第1页
中科院自动化所评测技术报告(SYSTEMII).ppt_第2页
中科院自动化所评测技术报告(SYSTEMII).ppt_第3页
中科院自动化所评测技术报告(SYSTEMII).ppt_第4页
中科院自动化所评测技术报告(SYSTEMII).ppt_第5页
资源描述:

《中科院自动化所评测技术报告(SYSTEMII).ppt》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、中科院自动化所评测技术报告(SYSTEMII)魏玮于东王韦华宗成庆徐波内容概要技术说明与参评系统短语系统分层短语系统基于依存树到串系统前后处理系统融合CASIA_SYSTEMII英中翻译系统评测环境概要数据总结中国科学院自动化所InstituteofAutomation,ChineseAcademyofSciences技术说明-短语系统典型的短语系统[2]非单调解码,任意跳转对数线性模型10个特征双向短语翻译概率p(e/f)和p(f/e)双向词汇化概率l(e/f)和l(f/e)4gram语言模型扭曲概率句子长度惩罚短语惩罚方向概率[3]IBM扭曲模型[4]中国科学院自动化所

2、InstituteofAutomation,ChineseAcademyofSciences技术说明-分层短语系统主要借鉴了Wei[5]的基本思想,引入分层短语的概念有效地结合了短语模型和同步上下文无关文法分层短语模型将语序信息包含在模型之中,克服了传统短语翻译的调序问题沿用了统计线性对数方法进行概率计算,使用了如下6个特征:双向短语翻译概率p(e/f)和p(f/e)双向词汇化概率l(e/f)和l(f/e)4gram语言模型句子长度惩罚中国科学院自动化所InstituteofAutomation,ChineseAcademyofSciences技术说明-依存树到串系统在源语

3、言端运用依存结构进行统计翻译的新模型:Dependency-StringStructureModel(DSS模型)由于计算资源和时间的限制,参加本次评测的系统仍然沿用和分层短语相同的文法DSS解码算法的输入是一棵树,而不是一个串,所以线图是按照树节点来索引的,而不是按照串中的跨距(span)来建立索引的解码时使用了8个特征,最后两个为依存子树的惩罚双向短语翻译概率p(e/f)和p(f/e)双向词汇化概率l(e/f)和l(f/e)4gram语言模型句子长度惩罚符合依存子树惩罚不符合依存子树惩罚中国科学院自动化所InstituteofAutomation,ChineseAcad

4、emyofSciences技术说明-前后处理前处理时间,数字处理模块地名,人名,机构名处理模块英文转化为小写预处理乱码过滤(中文中的乱码、英文中的乱码以及包含中文词的句子)标点符号及数字变换(中文中的部分标点符号、英文中的双字节符号及数字)英文缩写处理中文分词、英文Tokenization后处理大小写转换:未翻译词保留其原始格式格式转换:去除中文中的空格未登录词中国科学院自动化所InstituteofAutomation,ChineseAcademyofSciences技术说明-系统融合[6][7]中国科学院自动化所InstituteofAutomation,Chinese

5、AcademyofSciences技术说明-外部技术汉语分词工具:计算所开发的ICTCLAS3.0双语词对齐工具:GIZA++语言模型训练工具:SRILM工具包英文词性标注工具:StanfordLog-linearPart-Of-SpeechTagger英文依存树分析工具:Minimum-SpanningTreeParser(MSTparser)中国科学院自动化所InstituteofAutomation,ChineseAcademyofSciences参评系统-CASIA_SYSTEMII中国科学院自动化所InstituteofAutomation,ChineseAcad

6、emyofSciences评测环境概要软硬件环境运行时间(约4000句测试集)运行平台操作系统数量CPURAMPC机Windows20032Pentium4,3.0G2.0G服务器Linux(Ubuntu)1Xeon2.0×216.0G系统新闻领域(小时)科技领域(小时)短语系统16分层短语2018依存树到串1816中国科学院自动化所InstituteofAutomation,ChineseAcademyofSciences数据开发数据:新闻-2007SSMT英中翻译测试集科技-CWMT08提供的Special语料中随机挑选200句翻译模型训练数据:新闻-CWMT08提供的

7、Common,约85万句对和;NISTMT08评测提供语料,大约670万句对科技-CWMT08提供的Special部分语料,约52万句对;NISTMT08评测提供语料,大约670万句对语言模型训练数据:LDC2007T38提供的ChineseGigawordThirdEdition,约3900万句中国科学院自动化所InstituteofAutomation,ChineseAcademyofSciences数据过滤过滤的原则:根据LDC语料中的当前句对中的所有词汇是否在发布的训练语料词汇集合中(周玉)新闻领域将NIS

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。