欢迎来到天天文库
浏览记录
ID:58156414
大小:1.19 MB
页数:7页
时间:2020-04-25
《依存树到串模型中引入双语短语的三种方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第28卷第2期中文信息学报VoL28。NO.22014年3月JOURNALOFCHINESEINFORMATIONPROCESSINGMar.,2014文章编号:1003-0077(2014)02-0044—07依存树到串模型中引入双语短语的三种方法谢军,刘群(中国科学院计算技术研究所,北京100190)摘要:依存树到串模型使用基于HDR片段的翻译规则。HDR片段是由中心词及其所有依存节点组成的树片段。这种翻译规则可以较好地捕捉语言中的句子模式和短语模式等组合现象,但在捕捉非组合现象(如习惯用语或固定搭配)方面存在不足。这类非组合现象易于由短语捕捉。为了更好地改善依存树到串模型的
2、性能,本文提出了三种引入双语短语的方法,分别为引入句法短语、引入泛化句法短语及引入非句法短语。实验结果表明,同时使用句法短语、泛化句法短语及非句法短语时,可以将依存树到串模型的性能显著提高约1.0BLEU值。关键词:统计机器翻译;依存树到串模型;泛化句法短语;非句法短语中图分类号:TP391文献标识码:AThreeWaystoIncorporateBilingualPhrasesintoDependency—to-StringModelXIEJun,LIUQun(InstituteofComputingTechnology,ChineseAcademyofSciences,Bei
3、jing100190,China)Abstract:Dependency-to—StringmodelmakesuseoftranslationrulesbasedOil.head-dependentsrelations,whichcon—sistsofaheadandallitsdependents.Thismodelisgoodatcapturingsentencepatternsandphrasepatternsinthesourcelanguage,butfailsincapturingnon-compositionalphenomena(suchasidiomandco
4、llocation)thatcanbecap—turedeasilybyphrases.Inordertobetterimprovetheperformance,weproposethreewaystoincorporatesyntacticphrases,generalizedsyntacticphrasesandnon-syntacticphrasesintothismode1.Experimentsshowthatthismodelgainsuptoabout1.0BLEUscorebyincorporatingthesethreekindsofphrases.Keywor
5、ds:statisticalmachinetranslation;Dependency-to—StringModel;generalizedsyntacticbilingualphrases;non-syntacticbilingualphrases先定义合适的树分解方式或形式化文法来描述依存1引言树的生成过程,这也使得这方面的研究工作相对更加困难。依存树旨在描述句子中各个成分之间的语法关在基于源语言依存树的模型研究方面,研究人系,兼有句法和语义知识,也被视为语言学从句法表员从不同的角度进行尝试,提出了多种不同的树分示向语义表示迈进的一种过渡形式。与成分树相解方式。Lin[2以路
6、径为基本结构单元、合并为基本比,依存树具有以下特点:1)完全由词汇化元素构操作,提出了基于路径转换的模型。Quirkl3等人扩成,更加简洁;2)同时包含了句法和语义知识;3)具展了Lin的工作,将基本结构单元由路径扩展为树有更好的跨语言短语聚合(phrasalcohesion)性权(Treelet),提出了依存树权模型;其中,树权指依质_1]。因此,依存树是一种非常适合构建统计机器存树中的任意连通子树,可以捕捉更大范围的语言翻译模型的知识源。学知识。熊德意等人[4提出的依存树权一串(DTSC)不过,依存树缺乏类似于短语结构文法的生成对应模型,也以树权作为基本单元,不过使用了与依式
7、文法体系,构建基于依存树的翻译模型时,需要首存树权模型不同的泛化处理方式,并定义了替换和收稿日期:2012-03-15定稿日期:2012—05—21基金项目:国家自然科学基金重点项目(60736014),国家自然科学基金项目(60873167,90920004),863重点项目(2011AA01A207)。2期谢军等:依存树到串模型中引入双语短语的三种方法45粘接两种操作。Xie等人L5以中心词及其所有依存详细说明引入句法短语、泛化的句法短语和非句法节点组成的树片段(简称HDR片
此文档下载收益归作者所有