基于知识自动获取的无指导译文消歧方法研究

基于知识自动获取的无指导译文消歧方法研究

ID:33186602

大小:2.11 MB

页数:175页

时间:2019-02-21

基于知识自动获取的无指导译文消歧方法研究_第1页
基于知识自动获取的无指导译文消歧方法研究_第2页
基于知识自动获取的无指导译文消歧方法研究_第3页
基于知识自动获取的无指导译文消歧方法研究_第4页
基于知识自动获取的无指导译文消歧方法研究_第5页
资源描述:

《基于知识自动获取的无指导译文消歧方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工学博士学位论文基于知识自动获取的无指导译文消歧方法研究刘鹏远哈尔滨工业大学2008年6月国内图书分类号:TP391.2国际图书分类号:681.37工学博士学位论文基于知识自动获取的无指导译文消歧方法研究博士研究生:刘鹏远导师:赵铁军教授申请学位级别:工学博士学科、专业:计算机应用技术所在单位:计算机科学与技术学院答辩日期:2008年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.2U.D.C.:681.37DissertationfortheDoctoralDegreeinEngineeringRESEARCHONUNSUPERVISEDWORDTRANS

2、LATIONDISAMBIGUATIONBASEDONAUTOMATICKNOWLEDGEACQUSITIONCandidate:LiuPengyuanSupervisor:Prof.ZhaoTiejunAcademicDegreeAppliedfor:DoctorofEngineeringSpecialty:ComputerApplicationTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofOralExamination:June,2008Degree-Conferring-Institution:Ha

3、rbinInstituteofTechnology摘要摘要这是个互联网的世界,使用高效的搜索引擎在互联网获取信息已经成为当代人们获取信息的最重要手段。在日益国际化的信息中,不同种语言之间的理解与处理一直存在着难以逾越的鸿沟,这就形成了人们对机器翻译、跨语言信息检索与处理的迫切需求。目前对此研究仍有诸多难题亟需解决,其主要之一就是,如何为源语言多义词选择语义正确对应的目标语译文词汇的问题,称之为译文消歧。译文消歧及与之相似的在单语范畴内的词义消歧一直是自然语言处理领域基础研究课题,它也是自然语言处理技术的重点和难点之一。针对译文消歧及词义消歧的现状,通过对各类无指导消歧方法的比较分析,本

4、文认为,目前无指导译文消歧的关键问题是消歧知识的自动获取与利用、克服数据稀疏及双语语义词典建设。因此,本文没有在机器学习算法、消歧特征选择等问题上做过多的研究与探讨,而是充分关注与挖掘无指导译文消歧方法中最核心的内容——知识获取,利用这些消歧知识来完成无指导译文消歧任务,同时克服数据稀疏问题。由此思想出发,本文提出了一系列逐步递进的无指导译文消歧知识获取以及消歧的创新方法,这些创新方法均利用了国际标准语义评测语料进行评测与对比分析,并均超过了以往可比较的最好无指导系统。最后,本文还进行了另一个关键问题的研究,即双语语义词典的自动构建。本文具体研究内容包括以下几个方面:1.自动获取带标记

5、目标语语料,并直接形成译文消歧模型,提出利用该模型进行译文消歧的方法。在此基础上,提出了等价伪译词概念以及等价伪译词的构造方法,并以此实现无指导的译文消歧。最后在国际语义评测数据集Senseval-2ELS上进行了实验与比较;2.通过对双语语料库间接关联的观察,提出利用双语词汇间接关联度的完全无指导译文消歧方法。在计算间接关联度的过程中充分利用了Web资源,设计了Web的词汇间接关联度(Web_IA)的计算方法,在消歧过程中利用了三种不同的决策方法进行决策。随后,针对基于间接关联方法的不足,本文将整个Web视为语义词典,直接利用Web进行双语词汇语义相关度(WBR)的定义分析以及计算。

6、经过对WBR方法在一个经改造处理的标准-I-哈尔滨工业大学工学博士学位论文语义相关度测试集上的比较实验,证明该方法可行后,设计了基于WBR的完全无指导译文消歧方法,并在同一个国际标准语义评测数据集Semeval2007上的task5与基于Web_IA方法做了详细的对比实验;3.通过对歧义词同义词集合内词汇语句序列的观察,提出了一种基于Ngram语言模型以及Web挖掘的无指导译文消歧方法。该方法认为歧义词不同词义所对应的N-gram语言模型模式不同,且利用的是语言模型知识而非语义知识。随后在同一个标准集上的对比评测表明,该方法取得了极为优异的性能。性能超过了该任务可比较最好无指导系统To

7、rMD12.8%(Pmar值),最后,还进行了基于语言模型的方法与基于语义模型的方法的详细比较及性能上限的讨论;4.研究了利用WordNet、HowNet以及大规模双语平行语料库自动生成面向译文消歧的的双语词典的方法。该方法充分利用大规模平行语料库内丰富的词汇对齐知识以及各项统计信息,利用WordNet及HowNet语义资源的相似度计算,形成了一部同时带有双语语义信息及语料库统计信息的词典。综上所述,本文基本上给出了面向知识自动获取的无指导译文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。