自然语言处理技术基础

自然语言处理技术基础

ID:15068346

大小:1.32 MB

页数:146页

时间:2018-08-01

自然语言处理技术基础_第1页
自然语言处理技术基础_第2页
自然语言处理技术基础_第3页
自然语言处理技术基础_第4页
自然语言处理技术基础_第5页
资源描述:

《自然语言处理技术基础》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第一章上下文无关语法说到语法(在本书中,语法均在句子层面使用,因此将不仔细区分语法和句法两个词的使用),人们可能首先会想到语言学课程。在语言学的教科书中,语法是一个主要的内容。在那些语法中,规定了如何用词构造句子,何种用法是不允许的等等。通常,语法可以用来辅助人们完成两件事情,其一是作为判定一个句子构造得是否合适的重要依据,也即,一个句子是否合乎语法;其二,依据语法来分析句子的结构,帮助人们理解句子内容,这一过程在人们学习外语时是尤为明显和重要的。(由此也可见,利用语法来进行句子结构分析对于进行自然语言理解是有一定认知依据的。)对于计算机自然语言处理,利用认

2、知依据来建立计算模型是一种可行的途径。因而,让计算机能够利用语法来分析句子是进行自然语言处理的一个重要阶段。与人类使用语法相同,计算机利用语法来分析句子也可以有两个层次:其一是识别一个句子是否合乎语法。通常把能完成该任务的计算机程序称为句子识别器。其二是分析句子的内部结构,确定句子的语法成分,为进一步的句子分析和理解提供足够的基础。通常把能完成第二个任务的计算机程序称为句法分析器。显然可以看出,句法分析器比识别器具有更强的能力。为了实现句子识别器或句法分析器,需要预先赋予计算机两个东西。第一个是语法:通常语言学教材中的语法是面向人的,为了让机器分析句子,需要

3、让机器知道这些语法,这种面向机器处理的语法也称为形式语法,它是规定语言中允许出现的结构的形式化说明。其中很重要的是如何表示形式语法,即形式语法的表示方式。本章将介绍两种表示方式:重写规则和转移网络。第二个是语法分析算法:机器依据形式语法来识别和分析句子并决定其结构的方式。在计算机自然语言处理中,我们更多地关心句法分析器的算法,因为句法分析器比识别器具有更强的能力,能够提供更多的信息。句法分析算法还应包括其中采用的数据结构的构造,在分析之后如何表示句子的句法结构等各个方面。在通常的人类自然语言中,未经分析的句子是线性的符号串表示。本章将介绍在经过分析后产生的句

4、子结构的树形表示,以及两种表示对于理解句子所带来的差异,也即句子的结构歧义问题。本章主要明确两个方面的内容,其一是形式语法的表示;其二是句子结构的表示。各部分是这样安排的:1.1节一般性介绍形式语法的描述问题;1.2节利用重写规则描述上下文无关语法;在1.3节介绍用转移网络和递归转移网络来描述上下文无关语法;在1.4节介绍句子在经过句法分析后产生的句法结构的树形表示;最后是对本章的小结。11.1形式语法描述最简单的描述语法的方式是把一种语言中所有可能的句子都列举出来作为这种语言的语法。这种描述语法的方式其问题是明显的,可以从以下两个方面来看。第一,在这种语法

5、描述方式下,为了要完成句子识别的任务,即判断一个句子是否符合该语法,也即判断该句子是否是这种语言中的一个合法的句子,就需要列出这种语言中所有可能的句子,这样要判断一个句子是否合乎语法,只需要把该句子和这种语言中的句子逐一比较,看看是否有和该句子完全相同的句子。而通常,我们所使用的语言其句子是无穷多的,无论是对于计算机还是对于人,穷举都是不可能的,对于计算机处理,一个可行的方案是编制一个程序来按某种算法生成并输出这种语言的所有句子,显然,对于有无穷个可能句子的语言而言,这个输出过程是无限的。对于这类语言,有如下的定义:对于一种语言,如果能编写一部程序,使得能按

6、某种次序输出该语言的所有句子,则称该语言是可递归枚举的。形式语言理论的一个结论是,可递归枚举语言是一种很强的语言,对它的句子进行是否合乎语法的判断并不一定能完全实现。假设给定某种可递归枚举语言,并编写出了一部程序能生成其所有的句子,现在来判断一个句子是否合乎语法,即该句子是否能和程序输出的某个句子完全匹配,如果找到一个完全匹配的句子,那么,可以说该句子是合乎语法的。但是,如果一直没有找到匹配的句子,也不能断定该句子不合乎语法,因为它还可能与后面输出的句子相匹配。由于在句子个数无限多时程序的输出过程是不会终止的,因而它与后面输出的句子相匹配的可能性就一直存在,

7、也即是说,对句子的合法性判断可能不会在有限步骤结束,这对于计算机处理而言,是不可实现的。可用计算机实现合法性判定的语言应该如下定义:如果对于一种语言,能编写一个程序在有限步骤内完成上述判断,则该语言称为是可递归的。一种语言是可递归枚举的,却不一定是可递归的。可见,自然语言句法分析的任务只能在可递归语言上实现,因此,相应的语法描述也应该是可递归的。第二,如果用列举所有句子的方法作为语法描述,那么这种描述是无助于对新句子进行结构分析的,而只能实现新句子的合法性识别。其方法是通过把新句子与该语法所列举出的句子进行匹配来判定新句子是否来自于这些合法句子的集合中,即是

8、否是一个合法的句子。除此之外,不能得出关于句子结构的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。