跨语言检索中机器翻译技术的 应用和进展.pdf

跨语言检索中机器翻译技术的 应用和进展.pdf

ID:52287059

大小:138.77 KB

页数:8页

时间:2020-03-26

跨语言检索中机器翻译技术的 应用和进展.pdf_第1页
跨语言检索中机器翻译技术的 应用和进展.pdf_第2页
跨语言检索中机器翻译技术的 应用和进展.pdf_第3页
跨语言检索中机器翻译技术的 应用和进展.pdf_第4页
跨语言检索中机器翻译技术的 应用和进展.pdf_第5页
资源描述:

《跨语言检索中机器翻译技术的 应用和进展.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、本期话题Topic数字图书馆论坛DigitalLibraryForum跨语言检索中机器翻译技术的应用和进展刘群骆卫华/中国科学院计算技术研究所北京100080摘要本文以跨语言检索为背景主要介绍了机器翻译技术的应用和进展文章介绍了跨语言检索中机器翻译技术的应用形式简单回顾了机器翻译技术发展历史中出现的各种方法及其基本思想和优缺点特别是近年来统计机器翻译的发展本文通过一个实例较为详细地介绍了目前主流的基于短语的统计机器翻译原理然后通过一个实际的新闻长句子对几个典型的基于规则的和基于统计的机器翻译系统的翻译结果给出了细致的比较和分析最

2、后对机器翻译在跨语言检索中的应用前景做出了展望关键词跨语言检索统计机器翻译1引言还是词典查询然而随着近年来统计机器翻译技术的迅速发展将统计机器翻译的研究成果应用于跨跨语言信息检索问题研究的是基于一种自然语语言检索必将引起人们更多的重视言构造的查询搜索任意语言文档的方法它与信近年来国际上机器翻译研究取得了重大的突息检索机器翻译两项技术有着天然的紧密联系破在一些主要的国际机器翻译评测中采用传统很多跨语言检索方法都要用到不同形式的翻译的基于规则的机器翻译方法的系统的性能已被目前技术通常比较简单的方法就是直接查词典因此主流的统计机器翻译

3、方法全面超越其中的很多思词典构造和查询方法就成为这一类方法的重要研究想和做法已经被跨语言检索研究引入为该领域的内容也有一些跨语言检索方法直接利用机器翻译研究提供了新的思路本文将主要从机器翻译的角系统进行翻译度介绍这个领域的发展重点是统计机器翻译近年具体来说跨语言检索中用到机器翻译的地方来取得的进展其中穿插了这些技术在跨语言检索主要有两方面中的应用(1)查询语句的翻译这是最普遍的用法也就本文将首先介绍机器翻译研究的历史和现状是将源语言的查询语句翻译成目标语言再到目标以及目前主流的基于短语的统计机器翻译方法的基语言的语料库中去查找相

4、关的文本本原理再通过一些实例具体比较两个机器翻译(2)目标文本的翻译由于查询者可能只懂源语系统一个是传统的基于规则的机器翻译系统言所以对于查询到的目标语言文本需要翻译成另一个是基于短语的统计机器翻译系统的翻译结果源语言这种翻译可能是全文翻译也可能是对文并分析其对跨语言检索可能产生的影响最后给出本的摘要进行翻译理论上说我们也可以在检索结论和展望之前就将所有的目标语言文本都翻译成源语言直接用源语言的查询语句进行检索这样就不需要2机器翻译研究的历史和现状1进行查询语句的翻译了当然由于这样做代价太高现在实际上很少有人这么做机器翻译的历史

5、可以追溯到1946第一台现代由于效率原因目前主流的做法还是对查询进电子计算机ENIAC诞生后不久英国工程师布斯A.行翻译显而易见在跨语言检索中查询翻译结D.Booth和美国洛克菲勒基金会副总裁韦弗W.果的好坏实际上对检索的效果起到了非常重要的Weaver在讨论电子计算机的应用范围时就提出作用对于查询翻译目前大部分系统采用的做法了利用计算机进行语言自动翻译的想法1949年1关于机器翻译的历史更详细的介绍请参见参考文献[1]和[2]本文有关机器翻译历史的很多介绍材料都来自冯志伟先生的相关论着122006年第9期总第28期数字图书馆论

6、坛DigitalLibraryForumTopic本期话题韦弗发表了一份以翻译为题的备忘录正式提对自然语言理解和机器翻译的认识更为深刻了出了机器翻译问题1954年美国乔治敦大学在国这一阶段机器翻译方法的主要特点是对语言进际商用机器公司IBM公司的协同下用IBM-701行了深层次的分析转换和生成也就是说翻译计算机进行了世界上第一次机器翻译试验把几不再是在句子的表层词序列上进行而是在句个简单的俄语句子翻译成英语接着苏联英国子的某种更深层结构如句法结构语义结构或知日本也进行了机器翻译试验机器翻译出现热潮识表示的层面上进行为了做到这一点

7、需要大在世界范围内大量的资金和研究人员都投入到了量的语言知识和翻译知识因此这时候的机器翻机器翻译的研究之中我国也是世界上最早开展机译程序从结构上比早期机器翻译程序的一大进步器翻译研究的国家之一1956年国家便把机器翻是采用了数据与程序相分离的形式语言知识和翻译研究列入了我国科学工作的发展规划成为其中译知识以数据形式存在而翻译程序利用这些数据的一个课题1957中国科学院语言研究所与计算进行翻译这种数据最常见的表现形式就是规则技术研究所合作开展俄汉机器翻译试验翻译了和词典因此这一类机器翻译方法被称为基于规9个不同类型的较为复杂的句子

8、则的机器翻译方法这时候的机器翻译系统通常都是很简单的大机器翻译方法也可以根据源语言理解和翻译转多采取了词典查询和简单词序调整的方法这种方换所在的语言学层面的不同进行划分如图1所示法被称为直接翻译方法显然这时候的研究者还没有意识到机器翻译的难度这种简单的直接翻译方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。