数据挖掘十大经典算法(9) 朴素贝叶斯分类器

数据挖掘十大经典算法(9) 朴素贝叶斯分类器

ID:47931223

大小:26.50 KB

页数:2页

时间:2019-11-06

数据挖掘十大经典算法(9) 朴素贝叶斯分类器_第1页
数据挖掘十大经典算法(9) 朴素贝叶斯分类器_第2页
资源描述:

《数据挖掘十大经典算法(9) 朴素贝叶斯分类器》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘十大经典算法(9)朴素贝叶斯分类器  贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。目前研究较多的贝叶斯分类器主要有四种,分别是:NaiveBayes、TAN、BAN和GBN。  贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点间若存在着一条弧,则表示这两结点相对应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的。网络中任意一个结点X均有一个相应的条件概率表(Condi

2、tionalProbabilityTable,CPT),用以表示结点X在其父结点取各可能值时的条件概率。若结点X无父结点,则X的CPT为其先验概率分布。贝叶斯网络的结构及各结点的CPT定义了网络中各变量的概率分布。  贝叶斯分类器是用于分类的贝叶斯网络。该网络中应包含类结点C,其中C的取值来自于类集合(c1,c2,...,cm),还包含一组结点X=(X1,X2,...,Xn),表示用于分类的特征。对于贝叶斯网络分类器,若某一待分类的样本D,其分类特征值为x=(x1,x2,...,xn),则样本D属于类别ci的概率P(C=ci

3、X

4、1=x1,X2=x2,...,Xn=xn),(i=1,2,...,m)应满足下式:  P(C=ci

5、X=x)=Max{P(C=c1

6、X=x),P(C=c2

7、X=x),...,P(C=cm

8、X=x)}  而由贝叶斯公式:  P(C=ci

9、X=x)=P(X=x

10、C=ci)*P(C=ci)/P(X=x)  其中,P(C=ci)可由领域专家的经验得到,而P(X=x

11、C=ci)和P(X=x)的计算则较困难。  应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学习,即从样本数据中构造分类器,包括结构学习和CPT学习;

12、第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至可以是NP完全问题,因而在实际应用中,往往需要对贝叶斯网络分类器进行简化。根据对特征值间不同关联程度的假设,可以得出各种贝叶斯分类器,NaiveBayes、TAN、BAN、GBN就是其中较典型、研究较深入的贝叶斯分类器。朴素贝叶斯  分类是将一个未知样本分到几个预先已知类的过程。数据分类问题的解决是一个两步过程:第一步,建立一个模型,描述预先的数据集或概念集。通过分析由属性描述的样本(或实例,对象等

13、)来构造模型。假定每一个样本都有一个预先定义的类,由一个被称为类标签的属性确定。为建立模型而被分析的数据元组形成训练数据集,该步也称作有指导的学习。  在众多的分类模型中,应用最为广泛的两种分类模型是决策树模型(DecisionTreeModel)和朴素贝叶斯模型(NaiveBayesianModel,NBC)。决策树模型通过构造树来解决分类问题。首先利用训练数据集来构造一棵决策树,一旦树建立起来,它就可为未知样本产生一个分类。在分类问题中使用决策树模型有很多的优点,决策树便于使用,而且高效;根据决策树可以很容易地构造出规则,而

14、规则通常易于解释和理解;决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小;决策树模型的另外一大优点就是可以对有许多属性的数据集构造决策树。决策树模型也有一些缺点,比如处理缺失数据时的困难,过度拟合问题的出现,以及忽略数据集中属性之间的相关性等。  和决策树模型相比,朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之

15、间相互独立,这个假设在实际应用中往往是不成立的,这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。  朴素贝叶斯模型:  ----  Vmap=argmaxP(Vj

16、a1,a2...an)  Vj属于V集合  其中Vmap是给定一个example,得到的最可能的目标值.  其中a1...an是这个example里面的属性.  这里面,Vmap目标值,就是后面计算得出的概率最大的一个.所以用max来表示  ----

17、  贝叶斯公式应用到P(Vj

18、a1,a2...an)中.  可得到Vmap=argmaxP(a1,a2...an

19、Vj)P(Vj)/P(a1,a2...an)  又因为朴素贝叶斯分类器默认a1...an他们互相独立的.  所以P(a1,a2...an)对于结果没

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。