tom的机器学习方法 ml-chap06

tom的机器学习方法 ml-chap06

ID:15149289

大小:424.50 KB

页数:35页

时间:2018-08-01

tom的机器学习方法 ml-chap06_第1页
tom的机器学习方法 ml-chap06_第2页
tom的机器学习方法 ml-chap06_第3页
tom的机器学习方法 ml-chap06_第4页
tom的机器学习方法 ml-chap06_第5页
资源描述:

《tom的机器学习方法 ml-chap06》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第6章 贝叶斯学习贝叶斯推理提供了推理的一种概率手段。它基于如下的假定,即待考查的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策。贝叶斯推理对机器学习十分重要,因为它为衡量多个假设的置信度提供了定量的方法。贝叶斯推理为直接操作概率的学习算法提供了基础,而且它也为其他算法的分析提供了理论框架。6.1介绍贝叶斯学习同我们的机器学习研究相关,有两个原因。首先,贝叶斯学习算法能够计算显式的假设概率,如朴素贝叶斯分类器,它是解决相应学习问题的最有实际价值的方法之一。例如,Mi

2、chieetal.(1994)详细研究比较了朴素贝叶斯分类器和其他学习算法,包括决策树和神经网络。他们发现朴素贝叶斯分类器在多数情况下与其他学习算法性能相当,在某些情况下还优于其他算法。本章描述了朴素贝叶斯分类器,并提供了一个详细例子:即它应用于文本文档分类的学习问题(如电子新闻分类)。对于这样的学习任务,朴素贝叶斯分类是最有效的算法之一。贝叶斯方法对于机器学习研究的重要性还体现在,它为理解多数学习算法提供了一种有效的手段,而这些算法不一定直接操作概率数据。例如,本章分析了第2章的Find-S和

3、候选消除算法,以判断在给定数据时哪一个算法将输出最有可能的假设。我们还使用贝叶斯分析证明了神经网络学习中的一个关键性的选择:即在搜索神经网络空间时,选择使误差平方和最小化的神经网络。我们还推导出另一种误差函数:交叉熵。它在学习预测概率目标函数时比误差平方和更合适。本章还用贝叶斯的手段分析了决策树的归纳偏置(即优选最短的决策树),并考查了密切相关的最小描述长度(MinimumDescriptionLength)原则。对贝叶斯方法的基本了解,对于理解和刻画机器学习中许多算法的操作很重要。贝叶斯学习方

4、法的特性包括:·观察到的每个训练样例可以增量式地降低或升高某假设的估计概率。这提供了一种比其他算法更合理的学习途径。其他算法会在某个假设与任一样例不一致时完全去掉该假设。·先验知识可以与观察数据一起决定假设的最终概率。在贝叶斯学习中,先验知识的形式可以是(1)每个候选假设的先验概率(2)每个可能假设在可观察数据上的概率分布。·贝叶斯方法可允许假设做出不确定性的预测。(比如这样的假设:这一肺炎病人有93%的机会康复)。·新的实例分类可由多个假设一起作出预测,以它们的概率为权重。·即使在贝叶斯方法计

5、算复杂度较高时,它们仍可做为一个最优的决策的标准衡量其他方法。在实践中应用贝叶斯方法的难度之一在于,它们需要概率的初始知识。当这概率预先未知时,可以基于背景知识、预先准备好的数据以及关于基准分布的假定来估计这些概率。另一实际困难在于,一般情况下确定贝叶斯最优假设的计算代价比较大(同候选假设的数量成线性关系)。在某些特定情形下,这种计算代价可以被大大降低。本章剩余部分的组成如下。6.2节介绍了贝叶斯理论,并定义了极大似然(maximumlikelihood)假设和极大后验概率假设(maximuma

6、posterioriprobabilityhypotheses)。接下来的四节将此概率框架应用于分析前面章节的相关问题和学习算法。例如,我们证明了在特定前提下,几个前述的算法能输出极大似然假设。剩余的几节则介绍了几种直接操作概率的学习算法。包括贝叶斯最优分类器、Gibbs算法和朴素贝叶斯分类器。最后,我们讨论了贝叶斯置信网,它是一种基于概率推理的较新的学习方法;以及EM算法,是当存在未观测到变量时广泛使用的学习算法。6.1贝叶斯法则在机器学习中,通常我们感兴趣的是在给定训练数据D时,确定假设空间

7、H中的最佳假设。所谓最佳假设,一种办法是把它定义为在给定数据D以及H中不同假设的先验概率的有关知识条件下的最可能(mostprobable)假设。贝叶斯理论提供了计算这种可能性的一种直接的方法。更精确地讲,贝叶斯法则提供了一种计算假设概率的方法,它基于假设的先验概率、给定假设下观察到不同数据的概率、以及观察的数据本身。要精确地定义贝叶斯理论,先引入一些记号。我们用P(h)来代表还没有训练数据前,假设h拥有的初始概率。P(h)常被称为h的先验概率(priorprobability),它反映了我们所

8、拥有的关于h是一正确假设的机会的背景知识。如果没有这一先验知识,那么可以简单地将每一候选假设赋予相同的先验概率。相似地,可用P(D)代表将要观察的训练数据D的先验概率(换言之,在没有确定某一假设成立时,D的概率)。下一步,以P(D

9、h)代表假设h成立的情形下观察到数据D的概率。更一般地,我们使用P(x

10、y)代表给定y时x的概率。在机器学习中,我们感兴趣的是P(h

11、D),即给定训练数据D时h成立的概率。P(h

12、D)被称为h的后验概率(posteriorprobability),因为它反映了在看到训

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。