欢迎来到天天文库
浏览记录
ID:5291397
大小:109.52 KB
页数:6页
时间:2017-12-07
《德汉机词典的设计器宝陈勋计算中心》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、德汉机器词典的设计计算中心谢佥宝陈勋郭蔽‘i摘要本文主要叙述德汉机器翻译系统(DEMTS)中的机器词典设计。内容包括机器词典的规模、结构,存取方式和管理工具。一、概述木机器翻译系统的质量好坏,速度快慢,很大程度上取决于机器词典的设计。对机器词典的访问贯穿于整个翻译过程无论在词法分析、句法分析、语义分析或转换生成过程中都要访问词典。机器词典与翻译系统的关系如图1所示。刁《寸德图I机器词典和翻译系统的关系?、机器词典的设计涉及诸多因素。一般需考虑词典规模,词典结构,存取方式和词典管理,工具等因素。下面就正在研制的德汉机器翻译系统(DHMTS)中的机器词
2、典的设计展开一渤些讨论。i二、词典规模L词典规模或容量的设计应兼顾需要和可能两种情况。所谓需要是指翻译系统为保证翻译质量对词典规模的要求。一般地说,词典中词条愈多,信息愈完善,则翻译质量愈高。然而,词典规模愈大,需要的计算机资源也愈大。另外,建立一部大的词典,涉及的人力和物力也是相当可观的,因此,词典柏规模应综合考虑上面两个方面。一般情况下,建立一个包罗万象韵机器词典是没有必要的,建立适用于某一个或若干个领域的词典是可行的。从目前国际上一些商用化的机译系统看,其机器词典被划分为基本词典和专业词典,有的还建立有用户词典,允许用户自己扩充,这种方法是可
3、取的考察一下国际上一些商用机译系统的机器词典规模也许是有益的。表1是部分结果。初次设计词典时,规模可小一些,因为词典结构尚需与算法匹配。此外,词典的信息也需要修正和完善。因此,开始时,规模小一些,有利于词典的结构调整和信息完善。根据METAL德英机译系统的经验,5000条单词可覆盖g0的科技文献。我们的主要目标是翻译科技文献,而不是文学作品。在调查研究的基础上,DHMTS德汉机译系统将建立2000条词汇的基本词典和3000条词汇的专用词典。袭l国际上一些商用化机译系统的词典规横机译系统语种基率词典专墨词典厢户词典备注BravicelPak日英400
4、00由用户建立——ATLASI型英日530025oo00ATLASⅡ型英丑500025OoooMELTRAN—I门日英5OOo0300o0HICATs/E日奠50ooo25000OHICATS/EJ奠日5oo0025000O————PIVOT日英,英日93000‘400D0鬻日too00英t3900PENSEE日英6O00040000RMT羹丑3ooD05000030o0SWP-780O日荛550oo55000夏普英日600o0400040000TAURAS奠日5000o500O030o00METAL德英50O0三、词典结构德语中的词可分成三类。第
5、一类是词形无变化的词,例如介词,连接词、大部分副词和数词等。第二类是有词尾变化的词,倒如名词、形容词等。第三类是需要变位的词,例如动词。第一类和第二类词在词典中原形存储,第三类词以词干形式存储。例如fragen,以frag形式出现在词典中,由于德语中存在不规则动词,它们的变化无确定的规则,因此,对于不规则动词,其不规则形式也收集在词典中。例如,lauf,lid,lies,Ias等都是不规则动词的词干变化形式。词典是由许多词条组成的,每个词条可看作是一个记录。每个记录又由若干项组成,项与项之间以冒号(:)作为分隔符隔开。每个记录的长度是可变的,其中的
6、项效电是可变的。这种结构对词典的建立和修改提供了较大的灵活性。DHMTS机译系统的词典以Varenee词典为基本模式。VRrenee词典是以动词为核心的词典,动词的配价要求及允许的句型均一一列出。下述是一个Varence词典的例子。78helfenI.helfenl十I2.3Ⅱ.helfen.-*Sn,(Sd),(pS/I/Inf)Ⅲ.Sn4keineSelektionsbesehr~nkungen(DerFreund,diePolizei,dasMe—dikament,derRatschhg,dasSehwimmenhilft)Sd·1.+Anl
7、m(ErhilftdemKind,demHund.)2.Abstr(alsHum)(ErhilftderPollzei.)P=bei,pSd--~Aet(ErhilftbeidersuehenaehdemVcrbrechcr.)I—,Aet(Erhilftabwasehen.)Inf—,Aet(Erhilft(dabei3,denVerdreeherzusuchen.)DHMTS中的词典结构l:~Varenee为基础,作了扩充。不同的词类在词典中的形式是不同的,同一种词类在词典中的形式是一致的,这既便于算法处理,又照顾到不同词类的特点。下面以动词为
8、倒,具体说明词典的结构。动词的词条有如图2所示的结构。图2动词词条的结构第2项的具体形式如下:多词类标记l词类{原形标记j
此文档下载收益归作者所有