tom的机器学习方法

tom的机器学习方法

ID:11006080

大小:193.50 KB

页数:23页

时间:2018-07-09

tom的机器学习方法_第1页
tom的机器学习方法_第2页
tom的机器学习方法_第3页
tom的机器学习方法_第4页
tom的机器学习方法_第5页
资源描述:

《tom的机器学习方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第12章 归纳和分析学习的结合纯粹的归纳学习方法通过在训练样例中寻找经验化的规律来形成一般假设。纯粹的分析方法使用先验知识演绎推导一般假设。本章考虑将归纳和分析的机制结合起来的方法,以获得两者的优点:有先验知识时更高的泛化精度,和依赖训练数据克服先验知识的不足。所得到的结合的方法比纯粹的归纳学习方法和纯粹的分析学习方法性能都要高。本章考虑的归纳-分析学习方法同时基于符号表示和人工神经网络表示。12.1动机在前几章我们已经见到了两种类型的机器学习:归纳学习和分析学习。归纳方法如决策树归纳和神经网络反向传播等,它寻找拟合训练数据的一般假设。分析的方法如Prolog-EBG,它寻

2、找拟合先验知识的一般假设,同时使它覆盖训练数据。这两种学习范型所基于的对学习到的假设的论证方法有根本的不同,因此,优缺点互为补充。将它们结合起来有可能得到更强有力的学习方法。纯粹的分析学习方法优点在于,可用先验知识从较少的数据中更精确地泛化以引导学习,然而当先验知识不正确或不足时,这一方法可能会进入歧途。纯粹的归纳方法具有的优点是不需要显式的先验知识,并且主要基于训练数据学习到规律。然而,若训练数据不足时它能会失败,并且会被其中隐式的归纳偏置所误导,而归纳偏置是从观察数据中泛化所必需的。表12-1概述了两者的互补的优点和缺陷。本章考虑的问题是怎样将二者结合成一个单独的算法,

3、以获得它们各自的优点。归纳和分析学习方法之间的不同可从它们对学习到的假设进行的论证(justification)的性质中看出。由纯粹的分析学习(如Prolog-EBG)输出的假设执行的是逻辑(logical)论证:输出的假设从领域理论和训练数据中演绎派生。对纯粹的归纳学习方法(如反向传播)输出的假设执行的是统计论证:输出的假设从统计论据中派生,它说明训练样本足够大从而可能代表样例的基准分布。归纳的统计论证在第7章讨论的PAC学习中已被清晰地阐明。既然分析的方法提出逻辑论证的假设,而归纳方法提供统计论证的假设,很容易看出为什么可以将两者结合起来。逻辑的论证的强度只相当于它们所

4、基于的假定或先验知识。如果先验知识不正确或不可得,逻辑论证是不可信的且无力的。统计论证的强度依赖于它们基于的数据和统计假定。当基准分布不可信或数据稀缺时,统计论证也是不可信且无力的。简而言之,两种方法针对不同的类型的问题时才有效。通过两者的结合,有望开发出更通用的学习方法,可以覆盖较广的学习任务。表12-1纯粹的分析学习和纯粹归纳学习的比较归纳学习分析学习目标拟合数据的假设拟合领域理论的假设论证统计推理演绎推理优点需要很少先验知识从稀缺的数据中学习缺陷稀缺的数据,不正确的偏置不完美的领域理论插图——原书页码:336Inductivelearning:归纳学习Plentifu

5、ldata:丰富的数据Nopriorknowledge:无先验知识Analyticallearning:分析学习Perfectpriorknowledge:完美的先验知识Scarcedata:稀缺的数据图12-1学习任务的分布范围。在最左端,没有可用的先验知识,因此需要纯粹的归纳学习方法以及较高的样本复杂度。在最右端,有完美的领域理论,可以使用如Prolog-EBG这样的纯粹分析方法。更多的实际问题位于这两个极端之间。图12-1概述了学习问题的分布范围,它随着可获得的先验知识和训练数据不同而变化。在一个极端,有大量的训练数据,但没有先验知识。在另一极端,有很强的先验知识,但

6、训练数据很少。多数实际学习问题位于这两个极端之间。例如,分析医疗记录的数据库以学习“用治疗手段x比治疗手段y更有效的病症”,通常可以开始于近似的先验知识(如疾病中内在的因果机制的定性模型),比如认定患者的体温比他的姓名更相关。类似地,在分析一个股票市场数据库以学习目标概念“股票值在后10个月会翻番的公司”中,如果已有了经济学的大概知识,可以提出公司的总利润比公司标志的颜色更相关。在这两种问题中,我们的先验知识是不完整的,但显然,它有助于区分相关和不相关的特征。本章考虑的问题是:“我们可以设计出怎样的算法,使用近似的先验知识结合可用数据来形成一般假设?”注意,即使在使用纯粹的

7、归纳学习算法时,仍有机会基于特定学习任务的先验知识来选择设计方案。例如,当应用反向传播来解决语音识别这样的问题时,设计者必须选择输入和输出数据的编码方式、在梯度下降中被最小化的误差函数、隐藏单元的数量、网络的拓扑结构、学习速率和冲量等。在做这些选择时,设计者可以将领域特定的知识嵌入到学习算法中。然而结果仍然是纯粹的归纳算法反向传播的一个实现,由设计者特殊化后针对语音识别任务。我们的感兴趣的不在于此,而在于一个系统能将先验知识作为显式的输入给学习器,训练数据也同样作为显式输入。这样它们仍为通用的算法,但利用了领域特定

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。