欢迎来到天天文库
浏览记录
ID:55997702
大小:498.64 KB
页数:7页
时间:2020-06-19
《引入集成学习的最大熵短语调序模型.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第28卷第1期中文信息学报V01.28,No.12014年1月JOURNALOFCHINESEINFORMAT10NPROCESSINGJan.,2014文章编号:1003~0077(2014)Ol一0087—07引入集成学习的最大熵短语调序模型何钟豪,苏劲松,史晓东,陈毅东,黄研洲(1.厦门大学智能科学与技术系,福建厦门361005;2.厦门大学软件学院,福建厦门361005)摘要:基于最大熵的括号转录语法模型具有翻译能力强、模型训练简单的优点,成为近些年统计机器翻译研究的热点。然而,该模型存在短语调序实例样本分布不平衡的缺点。针对该问题,该文提出了一种引入集成学习的短语
2、调序模型训练方法。在大规模数据集上的实验结果表明,我们的方法能有效改善调序模型的训练效果,显著提高翻译系统性能。关键词:最大熵;短语调序;不平衡分类;集成学习中图分类号:TP39l文献标识码:AAnEnsembleLearningMethodforMaximumEntropyBasedPhraseReorderingModelHEZhonghao,SUJinsong,SHIXiaodong,CHENYidong,HUANGYanzhou(1.CognitiveScienceDepartment,XiamenUniversity,Xiamen,Fujian361005,Chi
3、na;2.SoftwareSchool,XiamenUniversity,Xiamen,Fujian361005,China)Abstract:TheMaximumEntropyBasedBTGmodelbecomesahottopicinstatisticalmachinetranslationinrecentyearsduetOitsstrongtranslationandeasytO—trainabilities.However,thedistributionofreorderingexamplesinthismodelisimbalanced.Tosolvethis
4、problem,weintroduceanensemblelearningmethodfortrainingphrasereor—deringmode1.Experimentalresultsshowthat,thereorderingmodelcanreachabettertrainingeffectviaourmethodandtheperformanceofthetranslationsystemisimprovedsignificantlyinalarge—scaledataset.Keywords:maximumentropy;phrasereordering;i
5、mbalancedclassifier;ensemblelearning现象具有很高的覆盖率,适合于机器翻译建模。因1引言此,括号转录语法模型近年来引起了研究者们的广泛关注。而本文的研究工作就是在括号转录语法模机器翻译中,在不同的语言或者同一语言内部型的基础上展开的。的不同方言之间,存在着非单调性对应,从而导致源括号转录文法当中包含有两条短语规则用于调语言和目标语言之间的短语顺序不同,这就是调序整短语间的顺序,但是在解决调序问题时仍然存在问题l_】j。由于这种问题普遍存在,并且会对机器翻局限性:由于没有包含短语的具体内容信息,对于译的效果产生重要影响,如果处理不当,会导致翻
6、译两个相邻的短语块组合在一起时是否需要调序,无错误,所以调序问题在机器翻译中是一个非常重要法进行很好的判断与处理]。对此,熊提出了基于的问题。最大熵的括号转录语法(MaximumEntropyBased针对这个问题,很多学者进行了深入的研究,建BTG,MEBTG)模型_4]。该模型在BTG翻译模型立了许多模型。在这一系列模型当中,括号转录语的基础上引入一个最大熵调序模型,通过将相邻短法模型l_2J(BracketTransductionGrammar,BTG)语块合并时是否需要调序看成是一个分类问题,构所使用的括号转录文法较为简单,而且对双语翻译建了一个最大熵分类器,并融合
7、人多种特征,较好地收稿日期:2013—03—22定稿日期:2013-05—29基金项目:国家自然科学基金(61303082,61005052);国家科技支撑计划(2012BAH14F03);高等学校博士学科点专项科研基金(2O120121120046)●88中文信息学报解决了BTG模型无法有效处理调序的问题。但出了MEBTG模型,该模型将短语是否需要调序看是,基于最大熵的括号转录语法模型的发展仍未成成是一个分类问题,采用最大熵分类器来对该问题熟,在翻译过程中还存在一些不足,其中较为显著的进行建模。该模型考虑了翻译短
此文档下载收益归作者所有