资源描述:
《机器翻译系统融合技术综述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第24卷第4期中文信息学报Vol.24,No.42010年7月JOURNALOFCHINESEINFORMATIONPROCESSINGJul.,2010文章编号:10030077(2010)04007411机器翻译系统融合技术综述李茂西,宗成庆(中国科学院自动化研究所模式识别国家重点实验室,北京100190)摘要:该文对机器翻译研究中的系统融合方法进行了全面综述和分析。根据在多系统输出结果的基础上进行融合的层次差异,我们将系统融合方法分为三类:句子级系统融合、短语级系统融合和词汇级系统融合。然后,针对这三种
2、融合方法,该文分别介绍了它们各自具有代表性的研究工作,包括实现方法、置信度估计和解码算法等,并着重阐述了近年来使用广泛的词汇级系统融合方法中用于构造混淆网络的词对齐技术。最后,该文对这三类系统融合方法进行了比较、总结和展望。关键词:人工智能;机器翻译;系统融合;最小贝叶斯风险解码;混淆网络解码;词对齐中图分类号:TP391文献标识码:AASurveyofSystemCombinationforMachineTranslationLIMaoxi,ZONGChengqing(NationalLaboratoryof
3、PatternRecognition,InstituteofAutomation,ChineseAcademyofSciences,Beijing100190,China)Abstract:Thispaperpresentsasurveyofsystemcombinationformachinetranslation(MT).Accordingtothedifferentlevelsofcombiningtheoutputsfromdifferentmachinetranslationsystems,weclassi
4、fytheapproachestosystemcombinationintothreetypes:sentencelevelcombination,phraselevelcombination,andwordlevelcombination.Therepresentativeworkforeachtypeisdiscussedinthispaper,includingthemethodsexploited,confidencesestimated,anddecodingalgorithms,aswellast
5、hemonolingualsentencealignmentapproacheswhichusedtobuildtheconfusionnetworkinthewordlevelsystemcombinationmethod.Finally,wediscussthethreecombinationapproachesandcomparethemwitheachother.ThefuturedevelopmentprospectsofMTsystemcombinationarealsodiscussed.Keywor
6、ds:artificialintelligence;machinetranslation;systemcombination;minimumBayesriskdecoding;confusionnetworkdecoding;wordalignment岐等任务中。近几年来,随着越来越多机器翻译方[12]1引言法的不断涌现,系统融合技术逐渐地应用于机器翻译领域中,并在各种评测活动中取得了较好的在自然语言处理中,几个相似的系统执行同一成绩。个任务时,可能有多个输出结果,系统融合就是将这最早将系统融合技术应用到机器翻
7、译领域中的[3]些结果进行融合,抽取其有用信息、归纳得到任务的是R.Frederking和S.Nirenburg,1994年他们最终输出结果。系统融合技术已经成功地应用于语将三个不同的翻译系统(包括基于知识的机器翻译音识别、语义角色标注、双语文本的词对齐和词义消系统、基于实例的机器翻译系统和词转换机器翻译收稿日期:20090621定稿日期:20090925基金项目:国家自然科学基金资助项目(60975053,90820303,60736014);国家支撑计划资助项目(2006BAH03B02);国家863计划
8、资助项目(206AA0101084);中国新加坡数字媒体研究院资助项目(CSIDM200804)作者简介:李茂西(1977),男,博士生,主要研究方向为机器翻译;宗成庆(1963),男,研究员,博导,主要研究方向为机器翻译、口语信息处理和文本分类。4期李茂西等:机器翻译系统融合技术综述75系统)的输出结果采用图表遍历算法(