chapter-1-绪论

chapter-1-绪论

ID:37933871

大小:311.33 KB

页数:7页

时间:2019-06-03

chapter-1-绪论_第1页
chapter-1-绪论_第2页
chapter-1-绪论_第3页
chapter-1-绪论_第4页
chapter-1-绪论_第5页
资源描述:

《chapter-1-绪论》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第一章绪论:什么是计算语言学先来看下面这一小段以汉语进行的对话。甲:听说吴妈打赢了阿Q。乙:不错,阿Q确实被吴妈打败了。甲:这个结果有些出人意料。乙:阿Q是大意失荆州,怪不得别人。这段对话也许从未在真实世界中发生过,但懂汉语的人很容易明白它的意思。如果这段对话是由两个说汉语的中国人讲出来的(比如两个相声演员),这一点也不稀奇,人们会觉得这“太过平常”了。但如果上面这段对话发生在一个人跟一台机器之间,甚至发生在一台机器跟另一台机器之间,可能人们就会“啧啧称奇”了。如果像这样的对话不仅仅只是说上四句就结束,而是滔滔不绝地说下去,那恐怕就要

2、用“匪夷所思”来形容人们的感受了。从某种意义上说,人类文明的发展历史或许可以表述为:将过去在人们看来“匪夷所思”的事情,变成现在人们容易理解,甚至“习以为常”的事情。那么,上面谈到的今日“匪夷所思”之事,是否能成为明日的现实?而要让这“匪夷所思”之事变成现实,人们又应该做怎样切实的努力呢?上面提出的问题,实际上又可以转化成一系列相关的问题来加以考虑:(1)人用来交际的“语言”具有什么样的性质?(2)人用来交际的“语言”跟机器可以理解的语言有什么样的关系?(3)人是如何运用“语言”进行交际的?(4)人运用“语言”进行交际的“过程”是否可

3、以描述为一个“机械的过程”?(5)什么叫做“理解”一种语言?(6)如何从“内在的交际意图”到“外显的语言表达”?……大致说来,正是对上述问题以及相关的延伸问题的探索,形成了计算语言学这一交叉边缘学科。如果要用相对严谨和概括的说法来表述的话,可以说:计算语言学(ComputationalLinguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的全部或者部分语言能力的目的。上面对计算语言学的界说可以分解为以下几个方面来做进一步的阐述。第一

4、节计算语言学的研究对象从“计算语言学”这个名称上可以看出,这门学科的研究对象涉及“计算”与“语言”两个方面。计算语言学的研究工作一方面可以表述为是从“计算”的角度去看待“语言”的性质;另一方面也可以说是将“语言”作为某种特殊类型的“计算”对象,相应地来研究适用于这类计算的算法过程。这两个方面共同构成了计算语言学的核心研究内容。一从计算的角度来看语言的性质所谓从计算的角度来看语言的性质,实际上就是要求将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来,而不是像传统的语言学研究那样,在表述语言的结构规律时一般采用非形式化

5、的表达形式。比如:在表述汉语中所谓“把”字句的结构规律时,传统的语法学可能会有这样的一些说法:(1)汉语的“把”字句也叫处置式,表示处置的意义,通常是指主语所表示的人或事物将“把”后宾语所表示的人或事物置于某种状态。例如:张三把李四赶跑了。这个句子中,“张三”是主语,“李四”是“把”后的宾语,这句话表达的意思可以表述为:张三赶李四,李四跑了。(2)汉语一般的主谓宾句式可以变换成“把”字句,通常也有对应的“被”字句。例如:“张三赶跑了李四”也可以说成“张三把李四赶跑了”或“李四被张三赶跑了”。上面这样的描述当然揭示了有关汉语“把”字句的

6、一些特点规律。但仅仅这样来描述,是不够精确的,同时也是非形式化的表述方式。就精确性要求来说,上述规则不能说明为什么“吴妈以前很喜欢阿Q的理论”这个主谓宾句式不能变换成相应的“把”字句和“被”字句(汉语中不说:“*吴妈把阿Q的理论以前很喜欢”,也不说“*阿Q的理论被吴妈以前1很喜欢”)。就形式化要求而言,上述对汉语“把”字句规律的说明是以自然语言(汉语)本身来描述的,没有采用符号化的规则形式来描述。那么,要能够以精确的、形式化的方式来表述有关自然语言的知识,应该如何去做呢?一方面,可以用一定的形式系统来“显性地”、“概括地”表述,另一方

7、面也可以用带标记的语料库来“隐性地”、“具体地”以统计数据形式表述。本书第二章(形式语法理论基础)和第三章(语料库)将分别对这两种方式做概要地介绍。二将语言作为计算对象来研究相应的算法所谓将语言作为计算对象来研究相应的算法,是研究如何以机械的、规定了严格操作步骤的程序来处理语言对象(主要是自然语言对象,当然也可以是形式语言对象),包括一个语言片断(比如词组、句子或篇章)中大小语言单位的识别,该语言片断的结构和意义的分析(自然语言理解),以及如何生成一个语言片断来表达确定的意思(自然语言生成),等等。现代的“算法”(algorithm)

8、一词据说来自一位名叫阿尔·花拉子模(al-Khowārizmi)的波斯数学家兼天文学家的名字。现在人们用这个词指具有以下特点的计算过程:(1)通用性:算法是针对一类问题的,而不仅仅是用于解决某一个具体问题。(2)机械性:

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。