欢迎来到天天文库
浏览记录
ID:37700827
大小:197.96 KB
页数:10页
时间:2019-05-29
《词组型术语结构的自动句法剖析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、载《中国科技术语》,2009年,第5期,Vol.11,No.5词组型术语结构的自动句法剖析冯志伟(教育部语言文字应用研究所)摘要:本文根据计算术语学的原理,使用短语结构语法对词组型术语进行了自动句法分析。通过具体的实例,介绍了两种基于短语结构语法的剖析方法--自底向上剖析和自顶向下剖析。关键词:计算术语学,短语结构语法,自动句法剖析,自底向上剖析,自顶向下剖析中图分类号:N04;H085.2,文献标识码:A,文章编号:1673-8578(2009)05-0010-07Automaticsyntacticparsingofphrase-ter
2、mstructureFENGZhiweiAbstract:Basedonfundamentalprincipleofcomputationalterminology,thephrase-termsaresyntacticallyparsedbythePhraseStructureGrammar(PSG).Inthispaper,throughtheconcreteexamples,theauthorintroducestwokindofparsingapproaches:bottom-upparsingandtop-downparsing.
3、Keywords:computationalterminology,PhraseStructureGrammar(PSG),automaticsyntacticparsing,bottom-upparsing,top-downparsing.1我们在《单词型术语的自动分析》一文中,讨论了单词型术语的自动分析问题。在一个术语系统中,词组型术语的数量比单词型术语的数量多得多。因此,在计算术语学(computationalterminology)中,除了研究单词型术语的自动分析之外,还有必要研究词组型术语的自动分析问题。词组型术语是由若干个句法单
4、位构成的,是有结构的。词组型术语的自动分析就是计算机自动地识别词组型术语的各个句法单位以及它们之间的相互关系的2过程,这个过程,又叫做“自动句法剖析”(automaticsyntacticparsing)。词组型术语的剖析技术是建立在自然语言的形式语法的基础之上的。所谓“剖析”(parsing),就是要用形式语法(formalgrammar)来分析词组型术语的结构,使之能清晰地、形式化地表示出来,因此,形式语法在词组型术语的剖析中有着极为重要的作用。一般地说,一种好的形式语法,在语言的描述方面应该尽量地自然、明白、易懂,在数学的表达方面,应
5、该有很强的说明力和解释力,在计算技术方面,应该具有较高的效率。美国语言学家乔姆斯基(N.Chomsky)提出,形式语法G可以用下面的四元组来定义:1冯志伟,单词型术语结构的自动分析,《中国科技术语》,2009年,第2期。2冯志伟,一种无回溯的自然语言分析算法,《语言文字应用》,2002年。G=(Vn,Vt,S,P)其中,Vn是非终极符号的集合,这些符号是专门用来描述语法类别的,它们是范畴符号,如词类符号、词组类型符号等;Vt是终极符号的集合,它们就是被定义语言中的具体的单词;S是初始符号,它是集合Vn中的一个特殊成员;P是重写规则的集合,其
6、中的每一条规则都具有φ→ψ的形式,φ称为规则的左部(LeftHandSide,简称LHS),ψ称为规则的右部(RightHandSide,简称RHS),φ→ψ意味着可以用规则的右部φ来置换规则的左部ψ。给定了一个语法G,我们就可以从初始符号S开始,应用重写规则推导出这种语法G所描述的语言L(G).具体地说,我们可以用重写规则S→φ1,从S推导出新的符号串φ1,再利用重写规则φ1→φ2,从φ1推导出新的符号串φ2,…,一直到我们得到不能再重写的符号串φn为止。这样推导出的终极符号串φn,就是语言L(G)中成立的词组型术语。短语结构语法(Phr
7、aseStructureGrammar,简称PSG)是乔姆斯基形式语法中最重要的一个类型。确切地说,这种短语结构语法应该叫做上下文无关的短语结构语法(Context-FreePhraseStructureGrammar,简称CF-PSG)。这种语法的重写规则是:A→ω其中,A是单个的非终极符号(即范畴符号),ω是非空的符号串,ω可以由终极符号组成,也可以由非终极符号组成,也可以由终极符号与非终极符号混合组成。有了一个上下文无关的短语结构语法,我们就可以用RHS中的符号串来重写LHS中的范畴符号,RHS的符号串中可以含有范畴符号,也可以含有具
8、体的单词。当用上下文无关的短语结构语法把LHS中的范畴符号重写为具体的RHS的时候,不必考虑LHS的范畴符号所出现的上下文,规则的使用对于上下文没有任何的限制,这就是为什么这种语
此文档下载收益归作者所有