最大似然估计和贝叶斯参数估计

最大似然估计和贝叶斯参数估计

ID:36253111

大小:3.27 MB

页数:103页

时间:2019-05-07

最大似然估计和贝叶斯参数估计_第1页
最大似然估计和贝叶斯参数估计_第2页
最大似然估计和贝叶斯参数估计_第3页
最大似然估计和贝叶斯参数估计_第4页
最大似然估计和贝叶斯参数估计_第5页
资源描述:

《最大似然估计和贝叶斯参数估计》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Chapter3:最大似然估计和贝叶斯参数估计要点:重点掌握最大似然估计和贝叶斯参数估计的原理;熟练掌握主成分分析和Fisher线性分析;掌握隐马尔可夫模型;了解维数问题;贝叶斯框架下的数据收集在以下条件下我们可以设计一个可选择的分类器:P(i)(先验)P(x

2、i)(类条件密度)不幸的是,我们极少能够完整的得到这些信息!从一个传统的样本中设计一个分类器先验估计不成问题对类条件密度的估计存在两个问题:1)样本对于类条件估计太少了;2)特征空间维数太大了,计算复杂度太高。13.1引言如果可以将类条件密度参数化,则可以显著降低难度。例如:P(x

3、i)的正

4、态性P(x

5、i)~N(i,i)用两个参数表示将概率密度估计问题转化为参数估计问题。估计最大似然估计(ML)和贝叶斯估计;结果通常很接近,但是方法本质是不同的。最大似然估计将参数看作是确定的量,只是其值是未知!通过最大化所观察的样本概率得到最优的参数—用分析方法。贝叶斯方法把参数当成服从某种先验概率分布的随机变量,对样本进行观测的过程,就是把先验概率密度转化成为后验概率密度,使得对于每个新样本,后验概率密度函数在待估参数的真实值附近形成最大尖峰。在这两种方法中,我们都用后验概率P(i

6、x)表示分类准则!当样本数目增加时,收敛性质会更好;比其他可选择

7、的技术更加简单。假设有c类样本,并且1)每个样本集的样本都是独立同分布的随机变量;2)P(x

8、j)形式已知但参数未知,例如P(x

9、j)~N(j,j);3)记P(x

10、j)P(x

11、j,j),其中3.2最大似然估计最大似然估计的优点:3.2.1基本原理使用训练样本提供的信息估计=(1,2,…,c),每个i(i=1,2,…,c)只和每一类相关。假定D包括n个样本,x1,x2,…,xn的最大似然估计是通过定义最大化P(D

12、)的值“值与实际观察中的训练样本最相符”22最优估计令=(1,2,…,p)t并令为梯度算子thegr

13、adientoperator我们定义l()为对数似然函数:l()=lnP(D

14、)新问题陈述:求解为使对数似然最大的值对数似然函数l()显然是依赖于样本集D,有:最优求解条件如下:令:来求解.P(xk

15、)~N(,)(样本从一组多变量正态分布中提取)这里=,因此:的最大似然估计必须满足:23.2.3高斯情况:未知乘并且重新排序,我们得到:即训练样本的算术平均值!结论:如果P(xk

16、j)(j=1,2,…,c)被假定为d维特征空间中的高斯分布;然后我们能够估计向量=(1,2,…,c)t从而得到最优分类!2未知和,对于单样本

17、xk=(1,2)=(,2)3.2.3高斯情况:和均未知对于全部样本,最后得到:联合公式(1)和(2),得到如下结果:22的最大似然估计是有偏的(渐进无偏估计)的一个基本的无偏估计是:23.2.4偏差估计模型错误会怎么样?达不到最优!在最大似然估计中被假定为固定值在贝叶斯估计中是随机变量目标:计算P(i

18、x,D)假设样本为D,贝叶斯方程可以写成:3.3贝叶斯估计3.3.1类条件密度因此,核心工作就是要估计先验概率通常可以事先获得,因此每个样本只依赖于所属的类,有:故:即:只要在每类中,独立计算就可以确定x的类别。假设的形式已知,参数

19、的值未知,因此条件概率密度是知道的;假设参数是随机变量,先验概率密度函数p()已知,利用贝叶斯公式可以计算后验概率密度函数p(

20、D);希望后验概率密度函数p(

21、D)在的真实值附件有非常显著的尖峰,则可以使用后验密度p(

22、D)估计;3.3.2参数的分布注意到3.3.2参数的分布如果p(

23、D)在某个值附件有非常显著的尖峰,则即:如果条件概率密度具有一个已知的形式,则利用已有的训练样本,就能够通过p(

24、D)对p(x

25、D)进行估计。单变量情形的p(

26、D)3.4贝叶斯参数估计:高斯过程复制密度结论:贝叶斯学习单变量情形的p(x

27、D)多变量情形

28、:复制密度其中仅µ未知.多变量学习3.5贝叶斯参数估计:一般理论p(x

29、D)的计算可推广于所有能参数化未知密度的情况中,基本假设如下:假定p(x

30、)的形式已知,但是的值未知。被假定为满足一个已知的先验密度P()其余的的信息包含在集合D中,其中D是由n维随机变量x1,x2,…,xn组成的集合,它们服从于概率密度函数p(x)。基本的问题是:计算后验密度p(

31、D),然后推导出p(x

32、D)。问题:p(x

33、D)是否能收敛到p(x),计算复杂度如何?(49)(50)(51)递归贝叶斯学习该过程称为参数估计的递归贝叶斯方法,一种增量学习方法。因为:所以:令

34、:例1:递归贝叶斯学习例1:递归贝叶斯学习例1:Bayesvs.ML唯一性问题p

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。