资源描述:
《模式识别概率密度函数的估计.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第三章概率密度函数的估计3.1引言贝叶斯决策:已知P(ω)和p(x
2、ω),对未知样本分类(设计分类器)ii实际问题:已知一定数目的样本,对未知样本分类(设计分类器)怎么办?一种很自然的想法:¢首先根据样本估计p(x
3、ω)和P(ω),记pˆ(x
4、ω)和Pˆ(ω)iiii¢然后用估计的概率密度设计贝叶斯分类器。——(基于样本的)两步贝叶斯决策希望:当样本数N→∞时,如此得到的分类器收敛于理论上的最优解。N→∞为此,需pˆ(x
5、ω)→p(x
6、ω)iiN→∞Pˆ(ω)→P(ω)ii重要前提:训练样本的分布能代表样本的真实分布,所谓i.i.d条件有充分
7、的训练样本本章研究内容:①如何利用样本集估计概率密度函数?②估计量的性质如何?③如何根据样本集估计错误率?估计概率密度的两种基本方法:ò参数方法(parametricmethods)ò非参数方法(nonparametricmethods)§3.2参数估计的基本概念和方法(part1)参数估计(parametricestimation):ò已知概率密度函数的形式,只是其中几个参数未知,目标是根据样本估计这些参数的值。几个名词:统计量(statistics):样本的某种函数,用来作为对某参数的估计参数空间(parametricspace):待估计参数的取值空
8、间θ∈Θ估计量(estimation):θˆ(x,x,L,x)12N3.2.1最大似然估计(MaximumLikelihoodEstimation)假设条件:①参数θ是确定的未知量,(不是随机量)②各类样本集X,i=1,L,c中的样本都是从密度为p(x
9、ω)的总ii体中独立抽取出来的,(独立同分布,i.i.d.)③p(x
10、ω)具有某种确定的函数形式,只其参数θ未知i④各类样本只包含本类分布的信息2其中,参数θ通常是向量,比如一维正态分布N(µ,σ),未知参数可能是i1µiθi=2,此时p(x
11、ωi)可写成p(x
12、ωi,θi)或p(x
13、θi)。σ
14、i鉴于上述假设,我们可以只考虑一类样本,记已知样本为X={}x,x,L,x12N似然函数(likelihoodfunction)Nl(θ)=p(X
15、θ)=p(x1,x2,L,xN
16、θ)=∏p(xi
17、θ)i=1——在参数θ下观测到样本集X的概率(联合分布)密度基本思想:如果在参数θ=θˆ下l(θ)最大,则θˆ应是“最可能”的参数值,它是样本集的函数,记作θˆ=d(x,x,L,x)=d(X)。称作最大似然估计量。12N为了便于分析,还可以定义对数似然函数H(θ)=lnl(θ)。求解:若似然函数满足连续可微的条件,则最大似然估计量就是方程dl(θ)/dθ)=
18、0或dH(θ)/dθ=0的解(必要条件)。T若未知参数不止一个,即θ=[θ,θ,L,θ],记梯度算子12sT∂∂∂∇=,,L,θ∂θ∂θ∂θ12s则最大似然估计量的必要条件由S个方程组成:∇H(θ)=0θ讨论:ò如果l(θ)或H(θ)连续可导,存在最大值,且上述必要条件方程组有唯一解,则其解就是最大似然估计量。(比如多元正态分布)。ò如果必要条件有多解,则需从中求似然函数最大者ò若不满足连续可导,则无一般性方法,用其它方法求最大(见课本均匀分布例)§3.3正态分布的监督参数估计(part1)3.3.1最大似然估计示例以单变量正态分布为例T2θ
19、=[θ,θ],θ=µ,θ=σ1212211x−µp(x
20、θ)=exp−2πσ2σ样本集X={x,x,L,x}12NN似然函数ln(x)=p(X
21、θ)=∏p(xk
22、θ)k=1N对数似然函数H(θ)=lnl(x)=∑lnP(xk
23、θ)k=1最大似然估计量θˆ满足方程N∇θH(θ)=∑∇θlnp(xk
24、θ)=0k=1而112lnp(x
25、θ)=−ln2πθ−(x−θ)k2k122θ21(x−θ)k1θ2∇lnp(x
26、θ)=θk112−+(x−θ)2k12θ2θ22得方程组N1∑ˆ(xk−θˆ1)=0k=1
27、θ2NN(x−θˆ)21k1−∑ˆ+∑2=0k=1θ2k=1θ2N解得µˆ=θˆ=1∑x1kNk=1Nσˆ2=θˆ=1∑(x−µˆ)22kNk=1§3.2参数估计的基本概念和方法(part2)3.2.2贝叶斯估计和贝叶斯学习(一)贝叶斯估计思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。思考题:请课后与贝叶斯决策比较基本思想:把待估计参数θ看作具有先验分布p(θ)的随机变量,其取值与样本集X有关,根据样本集X={x,x,L,x}估计θ。12N损失函数:把θ估计为θˆ所造成的损失,记为λ(θˆ,θ)期望风险:R=λ(θˆ,θ)p(x,θ)
28、dθdx∫Ed∫Θ=λ(θˆ,θ)p(θ
29、x)p(x)dθdx∫Ed∫Θ=R(θ