资源描述:
《十大经典算法朴素贝叶斯.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、朴素贝叶斯算法NaïveBayes知识回顾贝叶斯知识1.样本空间的划分2.全概率公式全概率公式图示证明化整为零各个击破说明全概率公式的主要用途在于它可以将一个复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果.称此为贝叶斯公式.3.贝叶斯公式证明条件概率的概念乘法定理:由以往的数据分析得到的概率,叫做先验概率.而在得到信息之后再重新加以修正的概率叫做后验概率.先验概率与后验概率简介贝叶斯定理分类算法概念朴素贝叶斯算法朴素贝叶斯算法原理朴素贝叶斯算法流程算法实例购买电脑实例总结算法优缺点算法相关扩展简单的说
2、,贝叶斯定理是基于假设的先验概率、给定假设下观察到不同数据的概率,提供了一种计算后验概率的方法。在人工智能领域,贝叶斯方法是一种非常具有代表性的不确定性知识表示和推理方法。贝叶斯理论贝叶斯定理:P(A)是A的先验概率或边缘概率。之所以称为“先验”是因为它不考虑任何B方面的因素。P(A
3、B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。P(B
4、A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。P(B)是B的先验概率或边缘概率,也作标准化常量(normalizedconstant).贝叶斯定理:关于贝叶斯分
5、类:对于贝叶斯网络分类器,若某一待分类的样本D,其分类特征值为,则样本D属于类别yi的概率P(C=yi
6、X1=x1,X2=x2,...,Xn=xn),(i=1,2,...,m)应满足下式:而由贝叶斯公式:其中,P(C=ci)可由领域专家的经验得到,而P(X=x
7、C=ci)和P(X=x)的计算则较困难。朴素贝叶斯算法原理:朴素贝叶斯算法原理:朴素贝叶斯算法原理:朴素贝叶斯算法原理:朴素贝叶斯算法原理:贝叶斯算法处理流程:贝叶斯算法的处理流程:第一阶段——准备阶段:该阶段为朴素贝叶斯分类做必要的准备。主要是依据具体情况确定特征属性,并且对特征属性进行
8、适当划分。然后就是对一部分待分类项进行人工划分,以确定训练样本。这一阶段的输入是所有的待分类项,输出时特征属性和训练样本。分类器的质量很大程度上依赖于特征属性及其划分以及训练样本的质量。贝叶斯算法处理流程:第二阶段——分类器训练阶段:主要工作是计算每个类别在训练样本中出现频率以及每个特征属性划分对每个类别的条件概率估计。输入是特征属性和训练样本,输出是分类器。第三阶段——应用阶段:这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。购买电脑实例:购买电脑实例:购买电脑实例:(2)计算每个特征属性
9、对于每个类别的条件概率:P(age<=“30”
10、buys_computer=“yes”)=2/9=0.222P(income<=“medium”
11、buys_computer=“yes”)=4/9=0.444P(student<=“yes”
12、buys_computer=“yes”)=6/9=0.667P(credit_rating<=“fair”
13、buys_computer=“yes”)=6/9=0.667P(age<=“30”
14、buys_computer=“no”)=3/5=0.600P(income<=“medium”
15、buys_compute
16、r=“no”)=2/5=0.400P(student<=“yes”
17、buys_computer=“no”)=1/5=0.2P(credit_rating<=“fair”
18、buys_computer=“no”)=2/5=0.400购买电脑实例:购买电脑实例:P(X
19、buys_computer=“no”)P(buys_computer=“no”)=0.019×0.357=0.007因此,对于样本X,朴素贝叶斯分类预测buys_computer=”yes”特别要注意的是:朴素贝叶斯的核心在于它假设向量的所有分量之间是独立的。总结朴素贝叶斯算法的优点:a
20、.算法逻辑简单,易于实现;b.分类过程中时空开销小;c.算法稳定,对于不同的数据特点其分类性能差别不大,健壮性比较好。总结那么“贝叶斯分类法的效率如何呢?”该分类法与决策树和神经网络分类法的各种比较试验表明,在某些领域,贝叶斯分类法足以与它们相媲美。理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的错误率,然而,实践中并非总是如此。这是因为对其使用的假定(如类条件独立性)的不正确性,以及缺乏可用的概率数据造成的。贝叶斯分类法还可以用来为不直接使用贝叶斯定理的其他分类法提供理论判定。例如,在某些假定下,可以证明:与朴素贝叶斯分类法一样,许多神经
21、网络和曲线拟合算法输出的最大的后验假定。对比决策树分类整棵决策树就对应着一组析取表达式规则。总结:扩展:扩展:对于第二个问题:朴素贝叶斯