面向形态丰富语言的多粒度翻译融合

面向形态丰富语言的多粒度翻译融合

ID:37623931

大小:3.28 MB

页数:7页

时间:2019-05-26

面向形态丰富语言的多粒度翻译融合_第1页
面向形态丰富语言的多粒度翻译融合_第2页
面向形态丰富语言的多粒度翻译融合_第3页
面向形态丰富语言的多粒度翻译融合_第4页
面向形态丰富语言的多粒度翻译融合_第5页
资源描述:

《面向形态丰富语言的多粒度翻译融合》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第25卷第4期中文信息学报Vol.25,No.42011年7月JOURNALOFCHINESEINFORMATIONPROCESSINGJul.,2011文章编号:10030077(2011)04007507面向形态丰富语言的多粒度翻译融合1,211王志洋,吕雅娟,刘群(1.中国科学院计算技术研究所,中国科学院智能信息处理重点实验室,北京100190;2.中国科学院研究生院,北京100049)摘要:形态丰富语言由于其复杂的形态变化,会导致大词汇量和数据稀疏问题,这给统计机器翻译带来了巨大挑战

2、。该文通过将这类语言表示为不同的粒度,然后分别进行翻译;由于不同的粒度能表征语言不同层面的特点,通过对不同粒度的翻译结果进行词级系统融合,便可生成更好的译文。维吾尔语、蒙古语到汉语的两组翻译实验表明,这种多粒度系统融合方法改善了翻译效果,BLEU值比最好的单系统分别提高了+1.41%和+2.03%。关键词:形态丰富语言;多粒度;系统融合中图分类号:TP391文献标识码:ASystemCombinationwithMultipleGranularitiesforMorphologicallyRi

3、chLanguageTranslation1,211WANGZhiyang,LVYajuan,LIUQun(1.KeyLaboratoryofIntelligentInformationProcessing,InstituteofComputingTechnology,ChineseAcademyofSciences,Beijing100190,China;2.GraduateUniversity,ChineseAcademyofSciences,Beijing100049,China)Abstrac

4、t:Morphologicallyrichlanguage,characterizedbycomplexmorphologicalchanges,hashugevocabularyandseriousdatasparsenessissue,whichhasbroughtagreatchallengetomachinetranslation.Inthispaper,wefirstanalyzesuchlanguageandusedifferentgranularitiestorepresentandt

5、hentranslatethemrespectively.Asdifferentgranularitiescancatchfeaturesofsuchlanguageindifferentlevels,weintegratethetranslationhypothesesfromdifferentgranularitiesbythesystemcombinationapproachtogeneratebetterresults.ExperimentalresultsonUyghurChinesea

6、ndMongolianChinesetranslationtasksshowthatsystemcombinationwithmultiplegranularitiesimprovedtheperformanceoftranslation,andgained+1.41%and+2.03%comparedtothebestsinglesystemmeasuredbyBLEU.Keywords:morphologicallyrichlanguage;multiplegranularities;syste

7、mcombination增加词汇量,导致语言模型参数估计的不可信,并提1引言高未登录词(OutOfVocabulary,OOV)的比例。对统计机器翻译而言,这种数据稀疏现象会严重影形态丰富语言的主要特征是高度丰富的形态变响词语对齐和翻译的质量。这类语言给自然语言处化,像曲折(Inflection)、派生(Derivation)、复合理,尤其是机器翻译带来了巨大的挑战。(Composition)等。给定一个词根,通过形态变化可我国是一个多民族国家,很多少数民族都有自以衍生出成百上千种新的形式;例如

8、蒙古语词根己的语言文字,并在本民族的各个领域中广泛应用。[1]使用较多的少数民族语言,像维吾尔语、蒙古语、哈UILED,理论上至少可以有1710种变化形式。如果将每一种变化形式都看作单独的词,这会大大萨克语等都属于形态丰富语言。研究这些少数民族收稿日期:20110322定稿日期:20110523基金项目:国家自然科学基金重点资助项目(60736014);国家自然科学基金资助项目(60873167)作者简介:王志洋(1984),男,博士生,主要

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。