欢迎来到天天文库
浏览记录
ID:45597385
大小:83.40 KB
页数:23页
时间:2019-11-15
《归纳和分析学习的结合》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第12章归纳和分析学习的结合纯粹的归纳学习方法通过在训练样例屮寻找经验化的规律来形成一般假设。纯粹的分析方法使用先验知识演绎推导一般假设。木章考虑将归纳和分析的机制结合起来的方法,以获得两者的优点:有先验知识时更高的泛化精度,和依赖训练数据克服先验知识的不足。所得到的结合的方法比纯粹的归纳学习方法和纯粹的分析学习方法性能都要高。本章考虑的归纳■分析学习方法同时基于符号表示和人工神经网络表示。12.1动机在前几章我们已经见到了两种类型的机器学习:归纳学习和分析学习。归纳方法如决策树归纳和神经网络反向传播等,它寻找拟合训练数据的一般假设
2、。分析的方法如Prolog-EBG,它寻找拟合先验知识的一般假设,同时使它覆盖训练数据。这两种学习范型所基于的对学习到的假设的论证方法有根木的不同,因此,优缺点互为补充。将它们结合起来有可能得到更强有力的学习方法。纯粹的分析学习方法优点在于,可用先验知识从较少的数据中更精确地泛化以引导学习,然而当先验知识不正确或不足时,这一方法可能会进入歧途。纯粹的归纳方法具有的优点是不需要显式的先验知识,并且主要基于训练数据7习到规律。然而,若训练数据不足时它能会失败,并且会被其屮隐式的归纳偏置所课导,而归纳偏置是从观察数据屮泛化所必需的。表12
3、-1概述了两者的互补的优点和缺陷。木章考虑的问题是怎样将二者结合成一个单独的算法,以获得它们各自的优点。归纳和分析学习方法之间的不同可从它们对学习到的假设进行的论证(justification)的性质中看出。由纯粹的分析学习(如Prolog-EBG)输出的假设执行的是逻辑(logical)论证:输出的假设从领域理论和训练数据屮演绎派生。对纯粹的归纳学习方法(如反向传播)输出的假设执行的是统计论证:输出的假设从统计论据中派生,它说明训练样木足够大从而可能代表样例的基准分布。归纳的统计论证在笫7章讨论的PAC学习中已被清晰地阐明。既然分
4、析的方法提出逻辑论证的假设,而归纳方法提供统计论证的假设,很容易看出为什么可以将两者结合起來。逻辑的论证的强度只相当于它们所棊于的假定或先验知识。如果先验知识不正确或不可得,逻辑论证是不可信的且无力的。统计论证的强度依赖于它们基于的数据和统计假定。当基准分布不可信或数据稀缺时,统计论证也是不可信且无力的。简而言Z,两种方法针对不同的类型的问题时才有效。通过两者的结合,有望开发出更通用的学习方法,可以覆盖较广的学习任务。表12-1纯粹的分析学习和纯粹归纳学习的比较归纳学习分析学习H标拟合数据的假设拟合领域理论的假设论证统计推理演绎推理
5、优点需耍很少先验知识从稀缺的数据中学习缺陷稀缺的数据,不正确的偏置不完美的领域理论插图原书页码:336Inductivelearning:归纳学习Plentifuldata:丰富的数据Nopriorknowledge:无先验知识Analyticallearning:分析学习Perfectpriorknowledge:完美的先验知识Scarcedata:稀缺的数据图12・1学习任务的分布范围。在最左端,没冇可用的先验知识,因此需要纯粹的归纳学习方法以及较高的样本复杂度。在最右端,冇完美的领域理论,可以使用如Prolog-EBG这样的纯
6、粹分析方法。更多的实际问题位于这两个极端Z间。图12-1概述了学习问题的分布范围,它随着可获得的先验知识和训练数据不同而变化。在一个极端,有大量的训练数据,但没有先验知识。在另一极端,有很强的先验知识,但训练数据很少。多数实际学习问题位于这两个极端ZI'可。例如,分析医疗记录的数据库以学习“用治疗手段X比治疗手段y更冇效的病症”,通常可以开始于近似的先验知识(如疾病中内在的因果机制的定性模型),比如认定患者的体温比他的姓名更相关。类似地,在分析一个股栗市场数据库以学习目标概念“股票值在后10个月会翻番的公司”中,如果己有了经济学的大
7、概知识,可以提出公司的总利润比公司标志的颜色更相关。在这两种问题中,我们的先验知识是不完整的,但显然,它有助于区分相关和不和关的特征。本章考虑的问题是:“我们可以设计出怎样的算法,使用近似的先验知识结合可用数据來形成一般假设?”注意,即使在使用纯粹的归纳学习算法时,仍有机会基于特定学习任务的先验知识来选择设计方案。例如,当应用反向传播来解决语音识别这样的问题时,设计者必须选择输入和输出数据的编码方式、在梯度下降中被最小化的误差函数、隐藏单元的数量、网络的拓扑结构、学习速率和冲量等。在做这些选择吋,设计者可以将领域特定的知识嵌入到学习
8、算法中。然而结果仍然是纯粹的归纳算法反向传播的一个实现,山设计者特姝化后针对语音识别任务。我们的感兴趣的不在于此,而在于一个系统能将先验知识作为显式的输入给学习器,训练数据也同样作为显式输入。这样它们仍为通用的算法,但利用了领域特定的
此文档下载收益归作者所有