资源描述:
《第9章机器学习与知识发现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第9章机器学习与知识发现9.1机器学习概述9.2符号学习9.3神经网络学习9.4知识发现与数据挖掘习题九9.1机器学习概述9.1.1机器学习的概念心理学中对学习的解释是:学习是指(人或动物)依靠经验的获得而使行为持久变化的过程。人工智能和机器学习领域的几位著名学者也对学习提出了各自的说法。如Simon认为:如果一个系统能够通过执行某种过程而改进它的性能,这就是学习。Minsky认为:学习是在人们头脑中(心理内部)进行有用的变化。TomM.Mitchell在《机器学习》一书中对学习的定义是:对于某类任务T和性能度P,如果一个计算机程序
2、在T上以P衡量的性能随着经验E而自我完善,那么,我们称这个计算机程序从经验E中学习。9.1.2机器学习的原理从以上对于学习的解释可以看出:(1)学习与经验有关。(2)学习可以改善系统性能。(3)学习是一个有反馈的信息处理与控制过程。因为经验是在系统与环境的交互过程中产生的,而经验中应该包含系统输入、响应和效果等信息。因此经验的积累、性能的完善正是通过重复这一过程而实现的。图9-1机器学习原理1这里的输入信息是指系统在完成某任务时,接收到的环境信息;响应信息是指对输入信息做出的回应;执行是指根据响应信息实施相应的动作或行为。按
3、图9-1,机器学习的流程就是:①对于输入信息,系统根据目标和经验做出决策予以响应,即执行相应动作;②对目标的实现或任务的完成情况进行评估;③将本次的输入、响应和评价作为经验予以存储记录。可以看出,第一次决策时系统中还无任何经验,但从第二次决策开始,经验便开始积累。这样,随着经验的丰富,系统的性能自然就会不断改善和提高。图9-1所示的学习方式现在一般称为记忆学习。例如,Samuel的跳棋程序就采用这种记忆学习方法。还有,基于范例的学习也可以看作是这种记忆学习的一个特例。记忆学习实际上也是人类和动物的一种基本学习方式。然而,这种依靠经验来
4、提高性能的记忆学习存在严重不足。其一,由于经验积累是一个缓慢过程,所以系统性能的改善也很缓慢;其二,由于经验毕竟不是规律,故仅凭经验对系统性能的改善是有限的,有时甚至是靠不住的。所以,学习方式需要延伸和发展。可想而知,如果能在积累的经验中进一步发现规律,然后利用所发现的规律即知识来指导系统行为,那么,系统的性能将会得到更大的改善和提高,于是,我们有图9-2所示的机器学习原理2。图9-2机器学习原理2可以看出,这才是一个完整的学习过程。它可分为三个子过程,即经验积累过程、知识生成过程和知识运用过程。事实上,这种学习方式就是人类和动物的技
5、能训练或者更一般的适应性训练过程,如骑车、驾驶、体操、游泳等都是以这种方式学习的。所以,图9-2所示这种学习方式也适合于机器的技能训练,如机器人的驾车训练。但现在的机器学习研究一般都省去了上面的经验积累过程,而是一开始就把事先组织好的经验数据(包括实验数据和统计数据)直接作为学习系统的输入,然后对其归纳推导而得出知识,再用所得知识去指导行为、改善性能,其过程如图9-3所示。在这里把组织好的经验数据称为训练样本或样例,把由样例到知识的转换过程称为学习或训练。图9-3机器学习原理3考察上面的图9-1、图9-2和图9-3可以发现,从经验数
6、据中发现知识才是机器学习的关键环节。所以,在机器学习中,人们就进一步把图9-3所示的机器学习过程简化为只有知识生成一个过程(如图9-4所示),即只要从经验数据归纳推导出知识就算是完成了学习。可以看出,图9-4所示的这类机器学习已经与机器学习的本来含义不一致了,实际上似乎已变成纯粹的知识发现了。图9-4机器学习原理4图9-5机器学习原理59.1.3机器学习的分类从图9-5可以看出,机器学习可分为信息、发现和知识三个要素,它们分别是机器学习的对象、方法和目标。那么,谈论一种机器学习,就要考察这三个要素。而分别基于这三个要素,就可以对机
7、器学习进行分类。例如,由于信息有语言符号型与数值数据型之分,因此基于信息,机器学习可分为符号学习和数值学习;而基于知识的形式,机器学习又可分为规则学习和函数学习等;若基于发现的逻辑方法,则机器学习可分为归纳学习、演绎学习和类比学习等等。这样的分类也就是分别从“从哪儿学?”、“怎样学?”和“学什么?”这三个着眼点对机器学习进行的分类。1.基于学习策略的分类1)模拟人脑的机器学习(1)符号学习:模拟人脑的宏观心理级学习过程,以认知心理学原理为基础,以符号数据为输入,以符号运算为方法,用推理过程在图或状态空间中搜索,学习的目标为概念或规
8、则等。符号学习的典型方法有记忆学习、示例学习、演绎学习、类比学习、解释学习等。(2)神经网络学习(或连接学习):模拟人脑的微观生理级学习过程,以脑和神经科学原理为基础,以人工神经网络为函数结构模型,以数值数据为输入,以数