资源描述:
《贝叶斯算法ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、贝叶斯分类贝叶斯定理朴素贝叶斯分类基本概念具体实例问题与解决方案贝叶斯信念网络基本概念具体实例训练贝叶斯信念网络小结贝叶斯定理P(H):先验概率P(H
2、X):后验概率——在条件X下,H的后验概率,即给定观测数据样本X,假定H成立的概率X:数据元组——通常用n个属性集的测量值描述H:假设贝叶斯定理P(H
3、X)=P(X
4、H)*P(H)/P(X)∵P(H∩X)=P(H)*P(X
5、H)=P(X)*P(H
6、X)即P(H)*P(X
7、H)=P(X)*P(H
8、X)∴P(H
9、X)=P(X
10、H)*P(H)/P(X)朴素贝叶斯分类朴素贝叶斯分类的工
11、作过程如下:(1)每个数据样本用一个n维特征向量X={x1,x2,……,xn}表示,分别描述对n个属性A1,A2,……,An样本的n个度量。朴素贝叶斯分类(2)假定有m个类C1,C2,…,Cm,给定一个未知的数据样本X(即没有类标号),分类器将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类将未知的样本分配给类Ci(1≤i≤m)当且仅当P(Ci
12、X)>P(Cj
13、X),对任意的j=1,2,…,m,j≠i。这样,最大化P(Ci
14、X)。其P(Ci
15、X)最大的类Ci称为最大后验假定。根据贝叶斯定理:朴素贝叶斯分类(
16、3)由于P(X)对于所有类为常数,只需要P(X
17、Ci)*P(Ci)最大即可。如果Ci类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2)=…=P(Cm),因此问题就转换为对P(X
18、Ci)的最大化(P(X
19、Ci)常被称为给定Ci时数据X的似然度,而使P(X
20、Ci)最大的假设Ci称为最大似然假设)。否则,需要最大化P(X
21、Ci)*P(Ci)。注意,类的先验概率根据样本的类别区分计算。朴素贝叶斯分类8朴素贝叶斯分类(4)给定具有许多属性的数据集,计算P(X
22、Ci)的开销可能非常大。为降低计算P(X
23、Ci)的开销,可
24、以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样联合概率分布朴素贝叶斯分类(5)对未知样本X分类,也就是对每个类Ci,计算P(X
25、Ci)*P(Ci)。样本X被指派到类Ci,当且仅当P(Ci
26、X)>P(Cj
27、X),1≤j≤m,j≠i,换言之,X被指派到其P(X
28、Ci)*P(Ci)最大的类。朴素贝叶斯分类Q&A问题:零概率影响——朴素贝叶斯分类是基于类条件独立假设,通过各元组与类别的条件概率的累乘得到所求条件概率,故当出现某项元组不存在,从而导致该项概率为零,从而消除其他项累乘所
29、造成的影响。解决:拉普拉斯校准/拉普拉斯估计法——对各项元组计数加1,从而避免某项元组计数为零的情况出现,从而消除零概率影响。朴素贝叶斯分类Q&A问题:类条件独立性假设——朴素贝叶斯分类基于类条件独立性假设的基础上才成立,而大多数情况下类条件独立性假设不成立,从而导致误差较大,无法使用朴素贝叶斯分类。解决:贝叶斯信念网络贝叶斯信念网络贝叶斯信念网络,也叫信念网络、贝叶斯网络和概率网络概念的图模型允许表示属性子集之间的依赖关系说明联合条件概率分布;它允许在变量的子集间定义类条件独立性;它提供一种因果关系的图形模型,可以在其上进行
30、学习。贝叶斯信念网络信念网络由两个成分定义——有向无环图和条件概率表的集合有向无环图(DAG):每个节点代表一个随机变量,变量可以是离散值或连续值,它们可能对应于给定数据中的实际属性,或对应于相信形成联系的“隐藏属性”;每条弧表示一个概率依赖,若一条弧由节点Y到Z,则Y是Z的双亲或直接前驱,而Z是Y的后代(给定其双亲,每个变量条件独立于图中它的非后代)。贝叶斯信念网络有向无环图:DAG中每一个节点表示一个随机变量,可以是可直接观测变量或隐藏变量,而有向边表示随机变量间的条件依赖。条件概率表:条件概率表中的每一个元素对应DAG中
31、唯一的节点,存储此节点对于其所有直接前驱节点的联合条件概率。备注:贝叶斯网络性质——每一个节点在其直接前驱节点的值制定后,这个节点条件独立于其所有非直接前驱前辈节点贝叶斯信念网络网络内的节点可以选作“输出”节点,代表类标号属性。分类过程不是返回单个类标号,而是可以返回概率分布,给出每个类的概率。信念网络可以用来回答实证式查询的概率和最可能的查询解释。贝叶斯信念网络贝叶斯信念网络实例:贝叶斯信念网络贝叶斯信念网络实例:CPT表内各项含义举例:P(LungCancer=yes
32、FamilyHistory=yes,Smoker=ye
33、s)=0.8P(LungCancer=no
34、FamilyHistory=no,Smoker=no)=0.9贝叶斯信念网络贝叶斯信念网络实例:设X=(x1,…,xn)是被变量或属性Y1,…,Yn描述的数据元组。注意,给定变量的双亲,每个变量都条件地独立于网络图中它的非后代。该网