资源描述:
《贝叶斯分类器讲义》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、贝叶斯分类器一、分类器的概念分类特征提取特征:对象的特殊属性特征向量:特征的描述参数方法:列出特征表用排除方法计算不同特征的相对概率,然后选取良好的特征的特点:可区别性、可靠性、独立性、数量少分类器的设计逻辑结构:(分类规则)相似程度分类规则的数学基础:(阈值规则)特征空间分类器的训练基本方法:用一组已知的对象来训练分类器目的的区分:1.分类错误的总量最少2.对不同的错误分类采用适当的加权使分类器的整个“风险”达到最低偏差:分类错误分类器的性能测试已知类别的测试集;已知对象特征PDF的测试集PDF的获取:画出参数的直方图,并计算均值和方差
2、,再规划到算法面积,需要的话再做一次平滑,就可将这个直方图作为相应的PDF设计独立每一类的测试集使用循环的方法特征选择特征选择可以看作是一个(从最差的开始)不断删去无用特征并组合有关联特征的过程,直至特征的数目减少至易于驾驭的程度,同时分类器的性能仍然满足要求为止。例如,从一个具有M个特征的特征集中挑选出较少的N个特征时,要使采用这N个特征的分类器的性能最好。特征方差类间距离降维二、概率论基本知识概率论基本知识确定事件:概念是确定的,发生也是确定的;随机事件:概念是确定的,发生是不确定的;模糊事件:概念本身就不确定。联合概率和条件概率联合
3、概率:设A,B是两个随机事件,A和B同时发生的概率称为联合概率,记为:P(AB);条件概率:在B事件发生的条件下,A事件发生的概率称为条件概率,记为:P(A
4、B),P(A
5、B)=P(AB)/P(B);乘法定理:P(AB)=P(B)P(A
6、B)=P(A)P(B
7、A)。概率密度函数概率分布函数:设X为连续型随机变量,定义分布函数;F(x)=P(X≤x);概率密度函数:给定X是随机变量,如果存在一个非负函数f(x),使得对任意实数a,b(a
8、空间的划分全概率公式说明:全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果。贝叶斯公式Bayes公式的意义Bayes公式,其意义是:假设导致事件A发生的“原因”有Bi(i=1,2,…,n)个。它们互不相容。现已知事件A确已经发生了,若要估计它是由“原因”Bi所导致的概率,则可用Bayes公式求出.即可从结果分析原因.三、贝叶斯分类器确定性分类和随机性统计分类以两类分类问题来讨论,设有两个类别ω1和ω2,理想情况,ω1和ω2决定了特征空间中的两个决策区域。确定性
9、分类:我们任取一个样本x,当它位于ω1的决策区域时,我们判别x∈ω1;当它位于ω2的决策区域时,我们判别x∈ω1。也可以说:当x位于ω1的决策区域时,它属于ω1的概率为1,属于ω2的概率为0。随机性统计分类:如我们任取一个样本x,当它位于ω1的决策区域时,它属于ω1的概率为小于1,属于ω2的概率大于0,确定性分类问题就变成了依照概率判决规则进行决策的统计判别问题。贝叶斯分类原理先验概率、后验概率和类(条件)概率密度:先验概率:根据大量样本情况的统计,在整个特征空间中,任取一个特征向量x,它属于类ωj的概率为P(ωj),也就是说,在样本集中
10、,属于类ωj的样本数量于总样本数量的比值为P(ωj)。我们称P(ωj)为先验概率。显然,有:P(ω1)+P(ω2)+……+P(ωc)=1如果没有这一先验知识,那么可以简单地将每一候选类别赋予相同的先验概率。不过通常我们可以用样例中属于类ωj的样例数
11、ωj
12、比上总样例数
13、D
14、来近似,即由以往的数据分析得到的概率,叫做先验概率.后验概率:当我们获得了某个样本的特征向量x,则在x条件下样本属于类ωj的概率P(ωj
15、x)称为后验概率。在得到信息之后再重新加以修正的概率叫做后验概率,后验概率就是我们要做统计判别的依据。类(条件)概率密度:P(x
16、ω
17、j)是指当已知类别为ωj的条件下,看到样本x出现的概率。若设x=,则P(x
18、ωj)=P(a1,a2…am
19、ωj)后验概率的获得:后验概率是无法直接得到的,因此需要根据推理计算由已知的概率分布情况获得。根据贝叶斯公式可得:其中:p(x
20、ωj)为类ωj所确定的决策区域中,特征向量x出现的概率密度,称为类条件概率密度。P(x)为全概率密度,可由全概率公式计算得到。贝叶斯分类原理:根据已知各类别在整个样本空间中的出现的先验概率,以及某个类别空间中特征向量X出现的类条件概率密度,计算在特征向量X出现的条件下,样本属于各类的概率,
21、把样本分类到概率大的一类中。利用贝叶斯方法分类的条件:各类别总体的概率分布是已知的;要分类的类别数是一定的;癌细胞识别,两类别问题——细胞正常与异常若仅利用先验概率进行分类统计的角度得出的两类