依存树到串模型中引入双语短语的三种方法-论文.pdf

依存树到串模型中引入双语短语的三种方法-论文.pdf

ID:58156414

大小:1.19 MB

页数:7页

时间:2020-04-25

依存树到串模型中引入双语短语的三种方法-论文.pdf_第1页
依存树到串模型中引入双语短语的三种方法-论文.pdf_第2页
依存树到串模型中引入双语短语的三种方法-论文.pdf_第3页
依存树到串模型中引入双语短语的三种方法-论文.pdf_第4页
依存树到串模型中引入双语短语的三种方法-论文.pdf_第5页
资源描述:

《依存树到串模型中引入双语短语的三种方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第28卷第2期中文信息学报VoL28。NO.22014年3月JOURNALOFCHINESEINFORMATIONPROCESSINGMar.,2014文章编号:1003-0077(2014)02-0044—07依存树到串模型中引入双语短语的三种方法谢军,刘群(中国科学院计算技术研究所,北京100190)摘要:依存树到串模型使用基于HDR片段的翻译规则。HDR片段是由中心词及其所有依存节点组成的树片段。这种翻译规则可以较好地捕捉语言中的句子模式和短语模式等组合现象,但在捕捉非组合现象(如习惯用语或固定搭配)方面存在不足。这类非组合现象易于由短语捕捉。为了更好地改善依存树到串模型的

2、性能,本文提出了三种引入双语短语的方法,分别为引入句法短语、引入泛化句法短语及引入非句法短语。实验结果表明,同时使用句法短语、泛化句法短语及非句法短语时,可以将依存树到串模型的性能显著提高约1.0BLEU值。关键词:统计机器翻译;依存树到串模型;泛化句法短语;非句法短语中图分类号:TP391文献标识码:AThreeWaystoIncorporateBilingualPhrasesintoDependency—to-StringModelXIEJun,LIUQun(InstituteofComputingTechnology,ChineseAcademyofSciences,Bei

3、jing100190,China)Abstract:Dependency-to—StringmodelmakesuseoftranslationrulesbasedOil.head-dependentsrelations,whichcon—sistsofaheadandallitsdependents.Thismodelisgoodatcapturingsentencepatternsandphrasepatternsinthesourcelanguage,butfailsincapturingnon-compositionalphenomena(suchasidiomandco

4、llocation)thatcanbecap—turedeasilybyphrases.Inordertobetterimprovetheperformance,weproposethreewaystoincorporatesyntacticphrases,generalizedsyntacticphrasesandnon-syntacticphrasesintothismode1.Experimentsshowthatthismodelgainsuptoabout1.0BLEUscorebyincorporatingthesethreekindsofphrases.Keywor

5、ds:statisticalmachinetranslation;Dependency-to—StringModel;generalizedsyntacticbilingualphrases;non-syntacticbilingualphrases先定义合适的树分解方式或形式化文法来描述依存1引言树的生成过程,这也使得这方面的研究工作相对更加困难。依存树旨在描述句子中各个成分之间的语法关在基于源语言依存树的模型研究方面,研究人系,兼有句法和语义知识,也被视为语言学从句法表员从不同的角度进行尝试,提出了多种不同的树分示向语义表示迈进的一种过渡形式。与成分树相解方式。Lin[2以路

6、径为基本结构单元、合并为基本比,依存树具有以下特点:1)完全由词汇化元素构操作,提出了基于路径转换的模型。Quirkl3等人扩成,更加简洁;2)同时包含了句法和语义知识;3)具展了Lin的工作,将基本结构单元由路径扩展为树有更好的跨语言短语聚合(phrasalcohesion)性权(Treelet),提出了依存树权模型;其中,树权指依质_1]。因此,依存树是一种非常适合构建统计机器存树中的任意连通子树,可以捕捉更大范围的语言翻译模型的知识源。学知识。熊德意等人[4提出的依存树权一串(DTSC)不过,依存树缺乏类似于短语结构文法的生成对应模型,也以树权作为基本单元,不过使用了与依式

7、文法体系,构建基于依存树的翻译模型时,需要首存树权模型不同的泛化处理方式,并定义了替换和收稿日期:2012-03-15定稿日期:2012—05—21基金项目:国家自然科学基金重点项目(60736014),国家自然科学基金项目(60873167,90920004),863重点项目(2011AA01A207)。2期谢军等:依存树到串模型中引入双语短语的三种方法45粘接两种操作。Xie等人L5以中心词及其所有依存详细说明引入句法短语、泛化的句法短语和非句法节点组成的树片段(简称HDR片

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。