欢迎来到天天文库
浏览记录
ID:32842971
大小:1.68 MB
页数:133页
时间:2019-02-16
《基于对齐技术搭配获取及其在机器翻译中应用的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.324密级:公开工学博士学位论文基于对齐技术的搭配获取及其在机器翻译中的应用研究博士研究生:刘占一导师:李生教授副导师:王海峰教授申请学位:工学博士学科、专业:计算机应用技术所在单位:计算机科学与技术学院答辩日期:2012年12月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C.:681.324DissertationfortheDoctoralDegreeinEngineeringAlignmentBasedAcquisitionofCollocat
2、ionandApplicationinMachineTranslationCandidate:LiuZhanyiSupervisor:ProfessorLiShengCosupervisor:ProfessorWangHaifengAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerApplicationTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:December,2012Degree-Co
3、nferring-Institution:HarbinInstituteofTechnology摘要摘要搭配是人们在使用语言的过程中,所形成的一种固有的语言现象。搭配表现了词汇之间的内在联系,而这种词汇间的联系可以帮助人们更好地使用和理解语言。近些年来,有很多学者针对搭配获取展开研究,并尝试将其应用到机器翻译、自动分析等自然语言处理任务中去。由于搭配是自然语言中非常普遍的现象,构成搭配的词汇允许自由组合,搭配在不同的语种中又有不同的表达方式等诸多原因,搭配研究也面临着很大的挑战。随着自然语言处理技术的不断发展,搭配研究受到了越来越多的关注。目前,搭配研究主要包
4、括两大内容:其一是搭配自动获取,即从预处理过的文本数据中,自动抽取高质量的搭配资源;其二是搭配应用,包括词汇间的相似度计算、自动翻译中的译文选择、依存分析中的词对关系估计等。本文的主要研究内容覆盖了以上两个方面,首先,尝试借鉴统计词对齐的思想,在不利用额外资源和预处理的情况下,直接从文本数据中进行搭配资源自动获取,在此基础上,本研究提出一系列方法把搭配资源应用到机器自动翻译方法上,从多个角度提高不同类型的机器翻译系统的性能。本研究的主要内容包括以下几个方面:1.基于单语统计词对齐方法的搭配获取研究。搭配是自然语言处理任务中的基础资源之一,近些年来,很多搭配获取
5、技术被相继提出。在充分借鉴前人研究的基础上,本文提出利用单语统计词对齐方法来自动获取搭配资源。该研究的意义不仅是提出了更有效的搭配获取方法,而且还针对获取的搭配资源构造了统计搭配模型,为搭配资源在机器翻译中找到了新的应用方式。同时也为搭配资源在其他自然语言处理任务中的应用提供了参考和借鉴。2.基于单语搭配资源的双语词对齐优化方法。双语词对齐是基于语料库机器翻译方法中的关键技术之一,自动获取的双语词对齐质量会直接影响翻译系统的译文质量。但是目前的双语词对齐研究主要集中在源语言和目标语言之间的对应关系上,而本研究从源语言或目标语言句子中词汇之间的关系入手,通过估计
6、词汇间的搭配强度来判断句子内部的词组是否适合作为一个整体来对齐,─I─哈尔滨工业大学工学博士学位论文以此来约束双语词对齐中的多词单元的对齐,从而提高了双语词对齐的效果。3.基于词汇间的搭配关系的翻译模型的优化方法。翻译模型是统计翻译方法的基础资源之一,其质量对于翻译效果具有显著影响。翻译模型的过滤和压缩一直是目前的研究热点。本研究提出了利用句子中词汇间的搭配关系描述了词组内部词汇之间及和内部词汇与上下文间的关联程度,进而利用这种关联程度估计了词组作为一个翻译单元的可能性。在基于短语(包括层次短语和连续短语)的统计翻译系统中增加了对短语的评价之后,可以有效区分翻
7、译短语的质量及提高待翻译短语和待翻译句子之间的匹配度。4.基于搭配信息的统计翻译系统的译文调序改进方法。从1993年第一次提出统计翻译方法至今,译文调序都是统计翻译领域中的难点,人们已经陆续提出了词汇模型、位置模型、甚至句法模型来尝试提高译文调序效果。与以往研究方法不同的是,本文通过观察源语言搭配词汇与对应的译文之间的位置关系,提出来通过对源语言搭配词汇对应的译文顺序进行预测,以此约束译文的相对位置,进而改善译文片段在候选译文中的顺序。5.利用统计搭配模型改进基于实例的机器翻译方法。基于实例的机器翻译方法是机器自动翻译的主要方法之一,已经在很多领域翻译中取得了
8、成功的应用。本研究从三个角度重新审视了
此文档下载收益归作者所有