大数据十大经典算法Navie Bayes讲解PPT

大数据十大经典算法Navie Bayes讲解PPT

ID:40230971

大小:2.90 MB

页数:26页

时间:2019-07-27

大数据十大经典算法Navie Bayes讲解PPT_第1页
大数据十大经典算法Navie Bayes讲解PPT_第2页
大数据十大经典算法Navie Bayes讲解PPT_第3页
大数据十大经典算法Navie Bayes讲解PPT_第4页
大数据十大经典算法Navie Bayes讲解PPT_第5页
资源描述:

《大数据十大经典算法Navie Bayes讲解PPT》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、朴素贝叶斯算法NaïveBayes李旺鹏杜豪杰刘承全汤翔简介贝叶斯定理分类算法概念朴素贝叶斯算法朴素贝叶斯算法原理朴素贝叶斯算法流程算法实例购买电脑实例总结算法优缺点算法相关扩展贝叶斯定理:关于分类:关于分类:重点是,分类问题采用的是经验性的方法来构造映射规则,所以分类问题缺少足够的信息来构造100%正确的映射规则。通过对已有数据的学习实现一定概率意义上的正确分类。所以构造出的分类器不能把每个待分类项正确的归类。分类器的质量也与分类器的构造方法、待分类数据的特性以及训练样本数量等诸多因素有关系。关于分类:医生教育方式(构造方法)病人症状(待分类数据特性)医生经验(训

2、练样本数)朴素贝叶斯算法原理:朴素贝叶斯算法原理:朴素贝叶斯算法原理:朴素贝叶斯算法原理:朴素贝叶斯算法原理:贝叶斯算法处理流程:贝叶斯算法的处理流程:第一阶段——准备阶段:该阶段为朴素贝叶斯分类做必要的准备。主要是依据具体情况确定特征属性,并且对特征属性进行适当划分。然后就是对一部分待分类项进行人工划分,以确定训练样本。这一阶段的输入是所有的待分类项,输出时特征属性和训练样本。分类器的质量很大程度上依赖于特征属性及其划分以及训练样本的质量。贝叶斯算法处理流程:第二阶段——分类器训练阶段:主要工作是计算每个类别在训练样本中出现频率以及每个特征属性划分对每个类别的条件

3、概率估计。输入是特征属性和训练样本,输出是分类器。第三阶段——应用阶段:这个阶段的任务是使用分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。购买电脑实例:购买电脑实例:购买电脑实例:(2)计算每个特征属性对于每个类别的条件概率:P(age<=“30”

4、buys_computer=“yes”)=2/9=0.222P(age<=“30”

5、buys_computer=“no”)=3/5=0.600P(income<=“medium”

6、buys_computer=“yes”)=4/9=0.444P(income<=“medium”

7、buy

8、s_computer=“no”)=2/5=0.400P(student<=“yes”

9、buys_computer=“yes”)=6/9=0.667P(student<=“yes”

10、buys_computer=“no”)=1/5=0.2P(credit_rating<=“fair”

11、buys_computer=“yes”)=6/9=0.667P(credit_rating<=“fair”

12、buys_computer=“no”)=2/5=0.400购买电脑实例:购买电脑实例:P(X

13、buys_computer=“no”)P(buys_computer=“no”)=0.0

14、19×0.357=0.007因此,对于样本X,朴素贝叶斯分类预测buys_computer=”yes”总结朴素贝叶斯算法的优点:a.算法逻辑简单,易于实现;b.分类过程中时空开销小;c.算法稳定,对于不同的数据特点其分类性能差别不大,健壮性比较好。总结那么“贝叶斯分类法的效率如何呢?”该分类法与决策树和神经网络分类法的各种比较试验表明,在某些领域,贝叶斯分类法足以与它们相媲美。理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的错误率,然而,实践中并非总是如此。这是因为对其使用的假定(如类条件独立性)的不正确性,以及缺乏可用的概率数据造成的。贝叶斯分类法还可以用来

15、为不直接使用贝叶斯定理的其他分类法提供理论判定。例如,在某些假定下,可以证明:与朴素贝叶斯分类法一样,许多神经网络和曲线拟合算法输出的最大的后验假定。总结:扩展:扩展:对于第二个问题:朴素贝叶斯算法是在假定各个特征属性相互独立的情况下提出来,这在现实生活中是很难实现的,所以针对这个问题人们做了大量工作解决这个缺点。(1)如果特征属性之间是有联系的,并且是一个有向无环图,可以采用另一个相关的贝叶斯分类算法——贝叶斯网络。在此不再介绍。(2)除了贝叶斯网络还有kononenko提出的semi-naïvebayesian算法,称为半朴素贝叶斯算法,扩展:该算法就是将特征相

16、关的属性分成一组,然后假设不同组中的属性是相互独立的,同一组中的属性是相互关联的。(3)还有一种具有树结构的TAN(treeaugmentednaïveBayes)分类器,它放松了朴素贝叶斯中的独立性假设条件,允许每个属性结点最多可以依赖一个非类结点。TAN具有较好的综合性能。算是一种受限制的贝叶斯网络算法。Thankyou!

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。