欢迎来到天天文库
浏览记录
ID:29451686
大小:95.94 KB
页数:29页
时间:2018-12-20
《英日机器翻译系统中的英语兼类词消歧策略》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、英日机器翻译系统中的英语兼类词消歧策略原文地址:英日机器翻译系统中的英语兼类词消歧策略作者:1926267847这个图片是姑娘头像还是老人头像?英日机器翻译系统E-to-J原语分析中的兼类词消歧策略冯志伟语言文字应用研究所计算语言学研究室100010北京朝内南小街51号e-mail:zwfengde@public.bta.net.cn摘要本文介绍了商品化英日机器翻译系统E-to-J中兼类词的消歧策略。作者根据机器翻译的实践,把英语中同形兼类词归纳为29种类型,提出了基于上下文环境的处理这些兼类词类型的消歧方法。关键词:机器翻译,原语分析,兼类词,消歧我
2、最近与日本JEC公司的研究人员合作,开发了一个英日机器翻译系统E-to-J,已经于1998年11月在日本市场推出,实现了商品化。这是我们研制的第一个从外语到外语的商品化机器翻译系统,主要是为了满足国外市场的需要。商品化的机器翻译系统的研制离不开机器翻译的理论。在开发E-to-J机器翻译系统之前,我们开发部的研究人员对于机器翻译的策略在理论上作了认真的探讨,使得我们的商品化机器翻译系统的研制在理论上有一个坚实的基础。这个机器翻译系统采用基于复杂特征的短语结构语法来分析英语,首先造出短语结构树(phrasestructuretree,简称P-树),然后将短
3、语结构树转化为从属树(dependencytree,简称D-树),采用了P-树到D-树的转化策略,最后根据从属关系语法(即配价语法)来进行日语生成。这种基于复杂特征的短语结构语法和从属关系语法相互结合的策略,适合于英日机器翻译的特点,取得了比较好的效果。在英语分析中,尽管我们采用了富田算法(TomitaAlgorithm)实现子树共享以及局部歧义紧缩等技术,提高了分析的效率,但是,由于英语中存在大量兼类词,如果兼类词的词类判断有误,分析中往往会走弯路,严重地影响到分析的速度。兼类词的判定实际上是在词汇中进行词类的消歧,兼类词的消歧,是英语自动分析中必须
4、认真对待的问题。在机器翻译中,所谓"兼类词"是指广义的兼类词。词形相同,词义相同,只是词类不同的词算兼类词,如plan,可以用作动词,也可以用作名词,但是,其词义都是"计划",算为兼类词;而且,词形相同,词义和词类不同的词,也算为兼类词,如can,作名词时其词义为"罐头",作助动词时其词义为"能够",我们也把它算为兼类词。这样,本文中所说的兼类词是意义非常广泛的兼类词,实际上也就是"同形兼类词"。在机器翻译系统中,兼类词的消歧,实际上就是同形词的辨别。我们对兼类词做这样广泛的规定,完全是从机器翻译形式分析的角度出发来考虑的。因为机器只认形式,只要是形式
5、上相同的词,机器都有必要将它们区别开来。在系统开发的初期,兼类词的消歧是贯穿在整个翻译过程中的,哪里遇到兼类词就在哪里消歧,这是一种"见子打子"的策略。这种策略的好处是消歧可以收到立竿见影的效果,但是,缺乏系统性,往往会忽略许多重要的兼类现象,由于商品化系统必须面对各种复杂的真实的语言材料,如果一些重要的兼类现象到分析结束时才处理,系统在分析的初始阶段必须付出大量的无谓的开销,系统的空间复杂度和时间复杂度都很高。商品化的机器翻译系统必须讲求效率,如果系统的无谓的开销过大,翻译速度必定不会很高,难以满足市场的需求,在激烈的市场竞争中有可能失利。经过反复的
6、考虑和试验,我们决定把兼类词判别作为系统的一个单独模块,放在形态分析结束而句法语义分析刚开始时来进行,尽量作到在句法语义分析开始之前就对大多数的兼类词进行消歧,从而为后面的分析工作奠定坚实的基础。实践证明,这样的做法大大地降低了系统的时间复杂度和空间复杂度,减少了系统的无谓开销,提高了翻译的速度,满足了日本市场的需要。下面,我们把E-to-J英日机器翻译系统中在兼类词消歧方面的研究作一个简单的介绍。1.英语中词的兼类现象:根据大量的语料分析和翻译试验,我们把英语中的兼类现象初步总结为如下29个方面:1.1V?N:V表示动词,N表示名词,"V?N"表示动
7、词-名词兼类。下面的表示方法与此相同。例如,plan是动词-名词的兼类词。在Wheredoyouplantospendyourvacation?中,plan是动词(我们在句子后面标以V),而在下面的句子中,plan是名词(我们在句子后面标以N):Haveyoumadeanyplansfortomorrownight?(N)另外,在"NandplanandN"(N表示名词)这样的格式中,由于与plan并列的前后词都是名词,故plan也是名词。动词-名词兼类的例子还有(当为动词时,句子后面标以V;当为名词时,句子后面标以N):work:Mydaughter
8、worksinanoffice.(V)Itisagasworks.(N)Ireadthewor
此文档下载收益归作者所有