资源描述:
《贝叶斯分类器.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、贝叶斯分类器刘振峰内容数学知识几种常用的决策准则判别函数、决策面与分类器设计1.概率论基本知识确定事件:概念是确定的,发生也是确定的;随机事件:概念是确定的,发生是不确定的;模糊事件:概念本身就不确定。随机变量随机变量:随机事件的数量表示;离散随机变量:取值为离散的随机变量;连续随机变量:取值为连续的随机变量;频率和概率频率:试验在相同的条件下重复N次,其中M次事件A发生,则A发生的频率为:fN(A)=M/N;概率:当N很大时,频率会趋向一个稳定值,称为A的概率:联合概率和条件概率联合概率:设A,B是两个随机事件,A和B同时发生的概
2、率称为联合概率,记为:P(A,B);条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A
3、B);乘法定理:P(A
4、B)=P(A,B)/P(B)。概率密度函数概率分布函数:设X为连续型随机变量,定义分布函数;F(x)=P(X≤x);概率密度函数:给定X是随机变量,如果存在一个非负函数f(x),使得对任意实数a,b(a
5、x)=P(x
6、cj)P(cj)P(x)先验概率P(cj)联合概率P(x
7、cj)后
8、验概率P(cj
9、x)先验概率P(cj)P(cj)代表还没有训练数据前,cj拥有的初始概率。P(cj)常被称为cj的先验概率(priorprobability),它反映了我们所拥有的关于cj是正确分类机会的背景知识,它应该是独立于样本的。如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于cj的样例数
10、cj
11、比上总样例数
12、D
13、来近似,即联合概率P(x
14、cj)联合概率是指当已知类别为cj的条件下,看到样本x出现的概率。若设x=则P(x
15、cj)=P(a1,a2…am
16、cj)
17、后验概率P(cj
18、x)即给定数据样本x时cj成立的概率,而这正是我们所感兴趣的P(cj
19、x)被称为C的后验概率(posteriorprobability),因为它反映了在看到数据样本x后cj成立的置信度2.几种常用的决策准则不同的决策规则反映了分类器设计者的不同考虑,对决策结果有不同的影响。其中最有代表性的是:基于最小错误率的贝叶斯决策基于最小风险的贝叶斯决策额2.1基于最小错误率的贝叶斯决策分类器中为什么会有错分类,在何种情况下会出现错分类?错分类的可能性会有多大?当某一特征向量X只为某一类物体所特有,即对其作出决策是容易的,也不
20、会出什么差错。问题在于出现模凌两可的情况。此时,任何决策都存在判错的可能性。条件概率:P(*
21、#)是条件概率的通用符号,P(wk
22、X)是表示在X出现条件下,样本为wk类的概率。基于最小错误率的贝叶斯决策基于最小错误概率的贝叶斯决策理论就是按后验概率的大小作判决的(1)后验概率:如果则(2)如果则(3)似然比:如果则否则如果则否则(4)似然比写成相应的负对数形式例题1假设在某地区切片细胞中正常(w1)和异常(w2)两类的先验概率分别为p(w1)=0.9,p(w2)=0.1。现有一待识别细胞呈现出状态x,由其类条件概率密度分布曲线查的p
23、(x
24、w1)=0.2,p(x
25、w2)=0.4,试对细胞x进行分类。例题1解答利用贝叶斯公式,分别计算出状态为x时w1与w2的后验概率基于最小错误率的贝叶斯决策的证明平均错误率:在观测值可能取值的整个范围内错误率的均值两类判别情况当p(w2
26、x)>p(w1
27、x)时决策为w2,对观测值x有p(w1
28、x)概率的错误率R1:做出w1决策的所有观测值区域,条件错误概率为p(w2
29、x)R2:条件错误概率为p(w1
30、x)。因此平均错误率p(e)可表示成在R1内任一个x值都有p(w2
31、x)
32、x),在R2区内任一个x值都有p(w1
33、x)
34、(w2
35、x)错误率在每个x值处都取小者,因而平均错误率p(e)也必然达到最小,这就证明了按(2-2)式作出的决策,其平均错误率为最小。p(e)也可以(2-8)式写成错误率为图中两个划线部分之和,对应的错误率区域面积为最小。2.2基于最小风险的贝叶斯决策是错误率最小并不一定是一个普遍适用的最佳选择一个与损失有关联的,更为广泛的概念—风险观测样本x实属类别j,而被判为状态i时所造成的损失,Ri则表示了观测值x被判为i类时损失的均值分类则依据Ri,(i=1,...,c)中的最小值,即最小风险来定。例:病理切片w1表示病理切片正常w2表示病
36、例切片异常p(w1
37、x)与p(w2
38、x)分别表示了两种可能性的大小定义:自然状态:指待识别对象的类别状态空间:由所有自然状态所组成的空间决策:不仅包括根据观测值将样本划归为哪一类别(状态),还可包括其他决策,如"拒绝"等决策空间:有所