资源描述:
《《自然语言理解》PPT课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第十章自然语言理解人工智能及其应用(第三版)研究生用书蔡自兴第十章自然语言理解自然语言理解和处理是人工智能的早期的和活跃的研究领域之一。用自然语言进行高级通信,是人类固有的本领。现在还不知道动物界是否也能用“口语”进行通信,例如鸟类之间是否有这种能力。至于书面语言,那肯定只有人类才具有。本章将首先讨论自然语言理解的概念、发展简史以及系统组成与模型等;然后,逐一研究语言的自动分析、句子的自动理解、语言的自动生成和机器翻译等重要问题;最后举例介绍自然语言理解系统。2湖南科技大学计算机学院戴祖雄10.1语言及其理解的一般问题什么是语言和语
2、言理解?自然语言理解与人类的哪些智能是否有关?自然语言理解研究是如何发展的?理解自然语言的计算机系统是如何组成的以及它们的模型为何?等等。这些是研究自然语言理解时感兴趣的问题。3湖南科技大学计算机学院戴祖雄10.1.1语言与语言理解语言是人类进行通信的自然媒介,它包括口语、书面语以及动作语(如哑语和旗语)等。一种比较正规的提法是:语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;在组成语句和语言时,应遵循一定的语法与语义规则。如果没有各种口语和书面语,如英语、汉语、法语和德语等,人类之间的充分而有效
3、的交流就难以想象。语言是随着人类社会和人类自身的发展而不断进化的。现代语言允许任何一个具有正常语言能力的人与他人交流思想感情和技术等。要研究自然语言理解,首先必须对自然语言的构成有一个基本认识。4湖南科技大学计算机学院戴祖雄语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。语言是一个符号体系,但与其他符号体系又有所区别。语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的、可理解的句子,句子按一定的形式再构成篇章等。词汇又可分为词和熟语。熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,如“教师”是由“教”和
4、“师”这两个词素构成。同样在英语中“teacher"也是由"teach"和"-er"这两个词素所构成。词素是构成词的最小的、有意义的单位。“教”这个词素本身有教育和指导的意义,而“师”则包含了“人”的意义。同样,英语中的“-er”也是一个表示“人”的后缀。5湖南科技大学计算机学院戴祖雄语法是语言的组织规律。语法规则制约着如何把词素构成词、词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫做构词规则,如教+师→教师,teach+er→teacher。一个词又有不同的词形、单数、复数、阴性、阳性和中性等。这种构
5、造词形的规则称为构形法,如教师+们→教师们,teacher+s→teachers。这里只是在原来的词后面加上一个复数意义的词素,所构成的并不是一个新的词,而是同一词的复数形式。构形法和构词法称为词法。词法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则,如红+铅笔→红铅笔,red+pencil→redpencil.这里“红”是一个修饰铅笔的形容词,它与名词“铅笔”组合成了一个新的名词。造句法则是用词或词组造句的规则,“我是计算机科学系的学生”,这是按照汉语造句法构造的句子,“Iamastu
6、dentinthedepartmentofcomputerscience"是英语造句法产生的同等句子。虽然汉语和英语的造句法不同,但它们都是正确和有意义的句子。图10.1就是上述构造的一个完整的图解。6湖南科技大学计算机学院戴祖雄图10.1语言的构成语言词汇词熟语词素构形法构词法语法词法句法词组构造法造句法7湖南科技大学计算机学院戴祖雄另一方面,语言是音义结合的,每个词汇有其语音形式。一个词的发音由一个或多个音节组合而成,音节又由音素构成,音素分为元音音素和辅音音素。自然语言中所涉及的音素并不多,一种语言一般只有几十个音素。由一个发
7、音动作所构成的最小的语音单位就是音素。迄今为止,对语言理解尚无统一和权威的定义。按照考虑问题角度的不同而有不同的解释。从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看·,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:①回答有关提问;②提取材料摘要;③不同词语叙述;④不同语言翻译。8湖南科技大学计算机学院戴祖雄然而,对自然语言的理解却是一个十分艰难的任务。即使建立一个只能理解片言断语的计算机系统,也是很不容易的。这中间存在着大量的极为复杂的编码和解码问题。一个能够理解自然语言的计算
8、机系统就像一个人那样需要上下文知识以及根据这些知识和信息进行推理的过程。自然语言不仅存在着语义、语法和语音问题,而且还存在模糊性等间题。具体地说,自然语言理解的困难是由下列三个因素引起的:①目标表示的复杂性;②映射类型的多样性;③源表