中文词法分析与句法分析融合策略研究

中文词法分析与句法分析融合策略研究

ID:43060741

大小:203.25 KB

页数:8页

时间:2019-09-25

中文词法分析与句法分析融合策略研究_第1页
中文词法分析与句法分析融合策略研究_第2页
中文词法分析与句法分析融合策略研究_第3页
中文词法分析与句法分析融合策略研究_第4页
中文词法分析与句法分析融合策略研究_第5页
资源描述:

《中文词法分析与句法分析融合策略研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、利用依存限制抽取长距离调序规则涂兆鹏刘群林守勋中国科学院计算技术研究所利能信息处理重点实验宅北京100190摘要:长距离调序是统计机器翻译领域的-个巫要问题。层次短语模型提供了一个很好的解决方案,它使用层次短语规则可以很好地表示局部调序和长距离调序。但是,使用传统的算法抽収长距离层次规则将会导致规则表数呈急剧増加,从而加人解码内存和时间消耗。为了解决这个问题,我们提出了一种利用依存限制抽取长距离调序规则的新方法。我们的实验表明,我们的方法可以比基准系统高出0.74个BLEU点。关键词:统计机器翻译,层次短语模型,长距离调序,依存限制中

2、图分类号:TP391ExtractLongDistanceReorderingRuleswithDependencyRestrictionTUZhaopengLIUQunLINShouxunKeyLaboraloryofIntelligentInionnationProcessing,InstituteofComputingTechnology,ChineseAcademyofSciencesBeijing100190Abstract:Longdistancereorderingisakeyprobleminstatisticalma

3、chinetranslation(SMT).Hierarchicalplirase-basedmodeloffersanalternativetoaddressthisproblembyusinghierairhicalrulesthatcouldcharacterizebothlocalandlongdistancereordering.However,extractinglongdistancereorderingruleswithtraditionalalgorithmwillmakedecodertime-and-memory

4、consuming.Weproposeanewalgorithmtoextractlongdistancereorderingruleswithanextradependencyrestriction.Ourexperimentsshowthatourmethodachieves0.74pointimprovementinBLEUscore・Keywords:StatisticalMachineTranslation;HierarchicalPhrase-basedModel;LongDistanceReordering;Depend

5、encyRestriction1前言过去十年,我们见证了机器翻译领域的快速发展。短语模型〔a】通过使用短语翻译替代字翻译*本文的研究是在国家自然科学基金重点项目“融合语言知识与统计模型的机器翻译方法研究”(60736014),国家自然科学基金项目“面向科技文献的机器翻译关键技术研究”(60873167)和自然科学基金青年基金项目“利用机器学习改进统计机器翻译的研究”(60903138)的支持下完成的。作者简介:涂兆鹏:男,1988年生,博士研究生,主要研究方向为自然语言处理。刘群:男,1966年生,研究员,主要研究方向为机器翻译和自然

6、语言处理。林守勋:男,1948年生,研究员,主要研究方向为多媒体技术和分布协同计算。来提高翻译质最,句法模型恥习通过加入句法信息进一步提高翻译质量。两类模型各冇优缺点,具体如下表所示。优势不足短语模型L很好地刻画短语内部的调序2.不恢赖共他句嫦息1•短语间的调丿撒差】•很好地刻画短语内部和短语间的调序1.依赖句法分析衣1.短语模型和句法模型的优势和不足层次短语模型叫吏用上卜文无关语法规则来综合基于短语模型和基于句法模型的优势,能够很好地刻画如语内部和肋吾间的调序,并「1.不依赖于句法分析。(Chiang,2007)农明使用层次如•语模

7、型可以比当前最好的短语模型高出1到3个BLEU点回。层次短语模型通过层次规则來表示短语间的调序。由于层次规则是从初始规则屮泛化而来的,如杲要抽取隐含长距离调序信息的规则,贝IJ必须先抽取氏跨度的初始短语。这将会生成巨大的规则表,从而导致极大的解码系统内存和时间消耗。为了避免这个问题,Chiang(2007)限制了初始短语的最人跨度的阈值回。但是,这样会削弱模型的长距离调序能力,因为规则无法农示跨度大于阈值的短语间的长距离调序。依存树能在一定程序上反映调序信息。(Quirketal.,2005)在源端使川依存树以训练一个调序模型⑺;(S

8、henetal.,2008)通过引入依存语言模型来刻画冃标端依存结构中的长距离词Z间的关系[8];(DingandPalmer,2005)使用依存树上定义的概率同步依存插入语法叫受上述工作的启发,我们提出了一个基本但有效

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。