资源描述:
《2009_刘挺_汉语自动句法分析的理论与方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、《当代语言学》第11卷2009年第2期100-112页,北京汉语自动句法分析的理论与方法刘挺马金山哈尔滨工业大学提要本文概述当前汉语句法分析的理论和方法,主要包括三部分内容:(1)句法分析的语法体系,介绍了句法分析工作所遵循的主要语法理论和树库资源建设方面的工作进展;(2)句法分析的主要方法,对句法分析中的难点问题以及当前主流的一些句法分析技术进行了讨论;(3)汉语句法分析的研究现状,主要介绍了当前汉语句法分析工作的研究进展以及存在的一些主要问题。关键词语法理论句法分析短语结构语法依存语法树库1.引言按照处理深度的不同,可以将计算语言学中的语言分析技术分为浅层
2、分析和深层分析两类。浅层分析技术主要是词汇级的处理,一般只对句子的局部进行分析,这类技术目前已经基本成熟,如分词、命名实体识别等,已经对文本检索、文本分类、信息抽取等应用产生了实质性的帮助。深层分析技术是对语言进行语法、语义甚至语用级别的处理,如句法分析、语义角色标注等,这些技术需要对句子进行全局分析才能得到正确的结果。目前,语言的深层分析技术还不够理想,距实用尚有较大距离。在深层分析技术中,句法分析处于十分关键的位置。句法分析是根据给定的语法体系,自动推导出句子的语法结构,分析句子所包含的语法单元和这些语法单元之间的关系(Allen1995),将句子转化为一
3、棵结构化的语法树。位于句法分析底层的词法分析技术已经基本成熟,之后的语义分析技术又是建立在句法分析的基础之上。所以,句法分析技术已经成为当前自然语言处理的一个瓶颈。除了为词义消歧、语义分析提供技术支撑之外,句法分析的结果可直接用于机器翻译、问答系统、信息抽取等应用中,并改善应用的性能。目前的机器翻译系统越来越依赖于句法分析,串到树、树到串以及树到树的方法已经应用到机器翻译中,并在不断地提高机器翻译的准确率。在基于自然语言的问答系统中,查询扩展以及答案匹配均需要对句子进行深入的理解和分析。已有一些工作将句法分析用于问答系统的问题分类中,并取得了较好的效果,验证了
4、句法分析对自动问答所起的积极作用(文勖等2005)。句法分析的结果是一种结构化数据,能够帮助信息抽取系统更准确地获取知识,已有的一些工作在句法分析的基础之上进行事件抽取,提高了系统的性能(Surdeanu,etal.2003)。综上所述,作为自然语言处理的核心技术,句法分析将把语言的深层理解提高到一个新的层面,有效支撑各种语义、语用等分析技术,并可直接对机器翻译等上层应用提供帮助。另一方面,当前的语法理论多种多样,让人目不暇接,每种语法理论都试图说明自己在描述语言100本刊网址:http://www.ddyyx.com现象时更有优势。句法分析工作则可以通过实践
5、检验相应的语法体系,验证某一语法理论的正确性和有效性,促进语法理论的研究和发展,为人类掌握语言的规律提供实践性的检验。2.从计算的角度看句法体系句法分析的最终目标是自动推导出句子的语法结构,实现这个目标首先要确定语言的语法体系,即对语言中合法句子的语法结构给出形式化的定义。语法体系的不同对句法分析有很大的影响。第一个影响是句法分析的应用,遵循不同的语法体系将获得不同形式的语法结构,而从不同的语法结构所获取的信息是不同的,这就要求应用系统应该选择合适的语法体系。另外,语法理论的目标是为了揭示语言的规律,试图以形式化的方式描述自然语言。但不同语法理论的出发点不同,
6、其描述语言的角度也不同,对句法分析来说,关心的是计算问题,即选择什么样的语法体系能够更易于计算机自动推导句子的语法结构。目前已经有多种用于句法分析的语法体系,其中,应用最为广泛的有短语结构语法和依存语法,本文从计算的角度对这些语法体系进行介绍。2.1短语结构语法Chomsky根据形式语法的原理,提出了短语结构语法(PhraseStructureGrammar,PSG),用来描述自然语言。短语结构语法分为两大类:上下文无关语法和上下文有关语法。其中,上下文无关语法的描述能力强,足以描述自然语言中的大部分结构,同时又是可递归的,可以构造有效的句法分析器来进行句子的
7、分析,在自然语言处理中得到了广泛的应用。短语结构树由终结符、非终结符以及短语标记这三种符号按照特定的语法规则构成。根据语法规则,若干终结符构成一个短语,作为非终结符参与下一次归约,直至将整个句子归约为根节点。如例(1):(1)西门子将努力参与中国的三峡工程建设。例(1)的短语结构语法树如图1所示。IPNPVP西ADVPADVPVP门子将努参NP力与DNPNPNPNP的NPNP建设中三工国峡程图1基于短语结构语法的分析树从图1可以看出,整个句法树的分析过程就是句子的终结符归约为根节点的过程,这个2009年第2期101过程中使用的语法规则是以产生式表示的,叫做产生
8、式规则,如:(2)VP→VNPDNP→