欢迎来到天天文库
浏览记录
ID:26605096
大小:273.51 KB
页数:7页
时间:2018-11-27
《贝叶斯统计读书笔记》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、第五章贝叶斯统计葛鹏飞1、贝叶斯统计学回顾定理1:贝叶斯定理的形式如下:它让我们能够通过后验概率,在观测到D之后估计w的不确定性。贝叶斯定理右侧的量由观测数据集D来估计,可以被看成参数向量w的函数,被称为似然函数(likelihoodfunction)。它表达了在不同的参数向量w下,观测数据出现的可能性的大小。在观察到数据之前,我们对参数的一些假设,通过先验分布体现。给定似然函数的定义,贝叶斯定理按照自然语言如下:2、几个问题的引入观察贝叶斯定理,在将贝叶斯方法用到统计问题以及更进一步的机器学习问题中,很直观的我们有以下问题需要考虑:(1)似然函数的选
2、择;(2)先验分布的选择;(3)在确定似然函数和先验分布之后,得到后验分布,如何根据后验分布做出统计推断以及决策;(4)如何评价我们的前三步的选择。之后我们将逐步解决以上四个问题。3、似然函数的选择前面的章节中,已经介绍过过拟合和欠拟合的概念:复杂的模型会导致过拟合,而简单的模型又会有欠拟合的忧虑。在贝叶斯方法中同样如此,似然函数包含着我们对数据D所了解的全部信息,合理的选择似然函数的形式,将直接影响模型的好坏,将这个问题称作贝叶斯模型选择。假设我们想比较L个模型,其中i=1,...,L。给定一训数据集D,由贝叶斯定理,我们有模型的后验分布:先验分布让
3、我们能够表达不同模型之间的优先级,假设我们对任意一个模型都没有偏爱,我们发现关于模型分布正比于模型的似然函数,因此最大化后验分布等价于最大化似然函数。由此,我们引入模型证据的概念,或者称作边缘似然函数。下面给出相应定义:定义2:(模型证据的定义)使用模型证据的概念,我们就可以进行贝叶斯模型选择,其中的合理性,有以下的近似结论:最大化模型证据的结果将使得我们选择一个复杂度适中的模型。关于这点将给出近似的证明,为便于理解,我们使用到如下两图:证明:在w为m维的情况下,上式可写作:取对数可得:当m逐渐变大时,第一项似然函数会逐渐变小,但是第二项会逐渐变大,以
4、此最大化模型证据涉及到第一项与第二项的权衡。最大化模型证据的结果将使得我们选择一个复杂度适中的模型。基于最小化模型证据,我们能选取到复杂度合适的模型,避免了交叉验证使得数据未被全部利用以及重复运算所带来的计算消耗。2、先验分布的选择先验分布代表我们主观对参数的知识以及偏好,先验分布的选取方法主要分为以下几种:(1)主观的概率:主要依靠历史数据、专家意见得到先验分布;(2)无信息先验分布:假设我们对任意一个参数都没有偏爱,使先验分布对后验分布的影响尽可能的小;(3)共轭先验分布:使得参数的先验分布与后验分布有相同的内核;(4)多层先验:寻找影响参数先验分
5、布的参数。我们对后三种先验分布做简单的介绍:4.1无信息先验分布在某些概率推断的应用中,我们可能有一些先验知识,可以方便地通过先验概率分布表达出来。例如,如果先验分布令变量的某些值的概率为零,那么后验分布也将会使那些值的概率为零,与后续的数据观测无关。但是,在许多情形下,我们可能对分布应该具有的形式几乎完全不知道。这时,我们可以寻找一种形式的先验分布,被称为无信息先验(noninformativeprior)。这种先验分布的目的是尽量对后验分布产生尽可能小的影响(Jeffreys,1946;BoxandTiao,1973;BernardoandSmit
6、h,1994)。这有时被称为“让数据自己说话”。无信息先验主要有以下几种组成:(1)位置参数的无信息先验为1;(2)尺度参数的无信息先验为参数的倒数;(3)Jeffreys先验分布:利用参数中的信息量确定无信息先验。4.2共轭先验分布在第三章的介绍中,我们已经接触到了共轭先验分布,故此处不展开。4.3多层先验分布当我们给先验分布一个先验分布时,就得到我们的多层先验分布,相应的贝叶斯模型称作多层贝叶斯模型:假设我们的多层贝叶斯有如上结构,由贝叶斯定理得如下公式:由这两个分布我们可以计算出任意的边缘分布与条件分布。2、贝叶斯推断与贝叶斯决策5.1贝叶斯推断
7、在之前的章节中,我们遇到了很多种不同的点估计,现在总结如下:5.2贝叶斯决策在一个统计问题中,我们不仅要对其中的不确定性进行度量,还需要对相应的问题做出决策。我们假设一个问题中,有一个输入向量x和其输出y,y可以是回归问题中的目标也可以是分类问题中的标签。通过模型我们做出的决策为a,在决策论中,我们定义度量a与y距离的损失函数,通过最小化期望损失函数做出相应的决策,常用的度量函数有0-1损失、L1损失和L2损失。具体流程如下:(1)首先定义损失函数L(y,a);(2)最小化期望损失:在贝叶斯决策中,我们需要考虑的是后验期望损失,定义如下:进一步以0-1
8、损失、L1损失和L2损失,有以下结论:(1)后验众数最小化0-1损失;(2)后验期望最小化L2
此文档下载收益归作者所有