朴素贝叶斯分类器应用

朴素贝叶斯分类器应用

ID:28391490

大小:301.50 KB

页数:20页

时间:2018-12-09

朴素贝叶斯分类器应用_第1页
朴素贝叶斯分类器应用_第2页
朴素贝叶斯分类器应用_第3页
朴素贝叶斯分类器应用_第4页
朴素贝叶斯分类器应用_第5页
资源描述:

《朴素贝叶斯分类器应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、-朴素贝叶斯分类器的应用作者: 阮一峰日期: 2013年12月16日生活中很多场合需要用到分类,比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器(NaiveBayesclassifier),它是一种简单有效的常用分类算法。一、病人分类的例子让我从一个例子开始讲起,你会看到贝叶斯分类器很好懂,一点都不难。某个医院早上收了六个门诊病人,如下表。  症状  职业   疾病  打喷嚏 护士   感冒   打喷嚏 农夫   过敏   头痛  建筑工人 脑震荡   头痛  建筑工人 感冒   打喷嚏 教师   感冒   头痛  教师 

2、  脑震荡现在又来了第七个病人,是一个打喷嚏的建筑工人。请问他患上感冒的概率有多大?根据贝叶斯定理: P(A

3、B)=P(B

4、A)P(A)/P(B)可得.---   P(感冒

5、打喷嚏x建筑工人)     =P(打喷嚏x建筑工人

6、感冒)xP(感冒)     /P(打喷嚏x建筑工人)假定"打喷嚏"和"建筑工人"这两个特征是独立的,因此,上面的等式就变成了   P(感冒

7、打喷嚏x建筑工人)     =P(打喷嚏

8、感冒)xP(建筑工人

9、感冒)xP(感冒)     /P(打喷嚏)xP(建筑工人)这是可以计算的。  P(感冒

10、打喷嚏x建筑工

11、人)     =0.66x0.33x0.5/0.5x0.33     =0.66因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,就可以知道他最可能得什么病。这就是贝叶斯分类器的基本方法:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。二、朴素贝叶斯分类器的公式假设某个体有n项特征(Feature),分别为F1、F2、...、Fn。现有m个类别(Category),分别为C1、C2、...、Cm。贝叶斯分类器就是计算出概率最大的那个分类,也就

12、是求下面这个算式的最大值: P(C

13、F1F2...Fn)   =P(F1F2...Fn

14、C)P(C)/P(F1F2...Fn)由于P(F1F2...Fn)对于所有的类别都是相同的,可以省略,问题就变成了求 P(F1F2...Fn

15、C)P(C)的最大值。朴素贝叶斯分类器则是更进一步,假设所有特征都彼此独立,因此.--- P(F1F2...Fn

16、C)P(C)   =P(F1

17、C)P(F2

18、C)...P(Fn

19、C)P(C)上式等号右边的每一项,都可以从统计资料中得到,由此就可以计算出每个类别对应的概率,从而找出最大概率的那个类。虽然

20、"所有特征彼此独立"这个假设,在现实中不太可能成立,但是它可以大大简化计算,而且有研究表明对分类结果的准确性影响不大。下面再通过两个例子,来看如何使用朴素贝叶斯分类器。三、账号分类的例子本例摘自张洋的《算法杂货铺----分类算法之朴素贝叶斯分类》。根据某社区网站的抽样统计,该站10000个账号中有89%为真实账号(设为C0),11%为虚假账号(设为C1)。  C0=0.89  C1=0.11接下来,就要用统计资料判断一个账号的真实性。假定某一个账号有以下三个特征:    F1:日志数量/注册天数     F2:好友数量/注册天

21、数     F3:是否使用真实头像(真实头像为1,非真实头像为0)    F1=0.1     F2=0.2     F3=0请问该账号是真实账号还是虚假账号?方法是使用朴素贝叶斯分类器,计算下面这个计算式的值。    P(F1

22、C)P(F2

23、C)P(F3

24、C)P(C)虽然上面这些值可以从统计资料得到,但是这里有一个问题:F1和F2是连续变量,不适宜按照某个特定值计算概率。.---一个技巧是将连续值变为离散值,计算区间的概率。比如将F1分解成[0,0.05]、(0.05,0.2)、[0.2,+∞]三个区间,然后计算每个区间的概

25、率。在我们这个例子中,F1等于0.1,落在第二个区间,所以计算的时候,就使用第二个区间的发生概率。根据统计资料,可得:  P(F1

26、C0)=0.5,P(F1

27、C1)=0.1   P(F2

28、C0)=0.7,P(F2

29、C1)=0.2   P(F3

30、C0)=0.2,P(F3

31、C1)=0.9因此,  P(F1

32、C0)P(F2

33、C0)P(F3

34、C0)P(C0)     =0.5x0.7x0.2x0.89     =0.0623  P(F1

35、C1)P(F2

36、C1)P(F3

37、C1)P(C1)     =0.1x0.2x0.9x0.11   

38、  =0.00198可以看到,虽然这个用户没有使用真实头像,但是他是真实账号的概率,比虚假账号高出30多倍,因此判断这个账号为真。四、性别分类的例子本例摘自维基百科,关于处理连续变量的另一种方法。下面是一组人类身体特征的统计资料。  性别  身高(英尺) 体重(磅)  脚掌(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。