欢迎来到天天文库
浏览记录
ID:12442349
大小:49.00 KB
页数:16页
时间:2018-07-17
《人工智能教案,07章 自然语言处理7.1 概述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、7.1概述 自然语言是指人类语言集团的本族语,如汉语、英语、日语等,以及人类用与交流的非发声语言,如手语、旗语等。自然语言是相对于人造语言而言的。人造语言是指世界语或计算机的各种程序设计语言。 众所周知,语言是思维的载体,是人际交流的最重要工具。 在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用而言,据统计用于数学计算的仅占10%,用于过程控制的不到5%,其余85%左右都是用于语言文字的信息处理。在信息化社会中,语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。
2、 在社会发展需求下,自然语言理解作为语言信息处理技术的一个高层次的重要方向,一直是人工智能界所关注的核心课题之一。显然,如果计算机能够理解自然语言,人-机间的信息交流能够以人们所熟悉的本族语言来进行,那将是计算技术的一项重大突破。另一方面,由于创造和使用自然语言是人类高度智能的表现,因此对自然语言理解的研究也有助于揭开人类智能的奥秘,深化我们对语言能力和思维本质的认识。 那么什么叫"自然语言理解"?正如什么是"智能"一样,对于"理解"这个术语也存在着各式各样的认识。在人工智能界,或者语言信息处理领域中,人们普遍认为可以采用著名的图灵(Tu
3、ring)试验来判断计算机是否"理解"了某种自然语言。 相比较人工智能其它领域,自然语言理解是难度大,进展小的。至今为止未能达到很高的水平。 Turing提出的智能实验,参加者是计算机、被实验的人以及主持实验的人。由主持人提出问题,计算机和被实验的人来回答,被实验者在回答问题时尽可能的向主持人表示他是"真正"的人,计算机也尽可能逼真的模仿人的思维。如果主持人通过听取对问题的回答分辨不出哪个是人的回答,哪个是机器的回答时,便可认为被试验的计算机是有智能的了。有人对这样设计的实验提出了疑义,他们认为这种实验只反映了结果的比较而没有涉及思维的
4、过程,而且也没明确此人是个孩子还是有良好素质的成年人参加了实验。当一个计算机系统能给出有关问题的正确答案或有用的建议、而解决问题所用的概念和推理与人相当、还能解释推理过程时,便可说这样的计算机系统是有智能的了。 本章将讨论自然语言理解的概念、发展简史以及系统组成与模型等;然后,逐一研究语言的自动分析、句子的自动理解、语言的自动生成和机器翻译等重要问题。7.1.1自然语言理解 怎样判断一个机器对人类的自然语言是理解了?没有通用的答案。通常我们同样可以用"图灵"实验来得到结论。判断"自然语言理解"的主要方面有如右页所示:·问题应答:机器能正
5、确的回答输入文本的有关问题。 ·文摘生成:机器有能力产生输入文本的摘要。 ·文章释义:机器能用不同的词语和句型来复述输入文本。 ·机器翻译:机器具有把一种语言翻译成为另一种语言的能力。 自然语言理解就是如何让计算机能正确处理人类语言,并据此作出人们期待的各种正确响应。自然语言理解的研究分为书面语理解和口语理解,相对而言,书面语比较规范,比起口语来说比较容易用机器处理。由于语言是思想的直接表现,社会的一切进步乃至生存都离不开语言(文字或非文字形式),这使得语言学几乎与所有的学科都存在着密切的联系。因此,自然语言理解的研究不但要运用语言
6、学中的词汇、语法、句法、语用和语义学知识,而且还要涉及到大量的客观世界的知识以及与其相关学科的知识。 通常所说的计算机理解了某些事件,实际上是把这些事件的一种表示形式转换为另一种表示形式,每种表示形式对应着一组动作。为了得到关于理解的总体描述,通常将语言看成是源语言和目标语言的二元组,两者存在着映射。 理解自然语言之所以困难,有三个重要因素: ·目标表示的复杂性。如语义的概念可以用语义网表示,要从语句中提取这种表示的关键字就相当的复杂,同时还需要更多相关的客观世界的知识。 ·映射的类型。对于源语言到目标语言表示的映射,一对一类型是最
7、理想的,但现实中自然语言到目标语言表示的映射极难达到一对一的要求。 ·成分间的交互程度。在语言中,每个语句都是由多个成分组成的,若每个成分的映射与其他成分无关,那么映射过程就比较简单。遗憾的是自然语言中的成分交互程度相当高,句子中改变一个成分,常常会大大改变句子的整体结构,这使得映射的复杂程度大大增加。 一般情况下,为了达到理解语言的目的,需要进行三步工作:理解所出现的每个词,词义表示语句意义的结构,和句子语义表示言语的结构。在这三个过程中,需要着重解决如何有效地使用语法、语义、语用及与其相关的各种知识问题。 由于汉语没有形态变化,因
8、此无法直接套用西方现有的语法模式。正是由于汉语词性的分类及划分是个老大难问题,进而使得语法语义的分析及生成也变得极其困难。 汉语的理解一般分为以下步骤:原文输入、句子词语切分及词
此文档下载收益归作者所有