基于朴素贝叶斯分类器的文本分类算法

基于朴素贝叶斯分类器的文本分类算法

ID:14057432

大小:500.00 KB

页数:7页

时间:2018-07-25

基于朴素贝叶斯分类器的文本分类算法_第1页
基于朴素贝叶斯分类器的文本分类算法_第2页
基于朴素贝叶斯分类器的文本分类算法_第3页
基于朴素贝叶斯分类器的文本分类算法_第4页
基于朴素贝叶斯分类器的文本分类算法_第5页
资源描述:

《基于朴素贝叶斯分类器的文本分类算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、基于朴素贝叶斯分类器的文本分类算法(上)  2010-02-2110:23:43

2、  分类:Lucene

3、  标签:

4、字号大中小 订阅转载请保留作者信息:作者:phinecos(洞庭散人)Blog:http://phinecos.cnblogs.com/Email:phinecos@163.com Preface      本文缘起于最近在读的一本书--TomM.Mitchell的《机器学习》,书中第6章详细讲解了贝叶斯学习的理论知识,为了将其应用到实际中来,参考了网上许多资料,从而得此文。文章将分为两个部分,第一部分将介绍贝叶斯学习的相关理论(如果你对理论不感兴趣,请直接跳至第二

5、部分<<基于朴素贝叶斯分类器的文本分类算法(下)>>)。第二部分讲如何将贝叶斯分类器应用到中文文本分类,随文附上示例代码。 Introduction我们在《概率论和数理统计》这门课的第一章都学过贝叶斯公式和全概率公式,先来简单复习下:条件概率定义设A,B是两个事件,且P(A)>0称P(B∣A)=P(AB)/P(A)为在条件A下发生的条件事件B发生的条件概率。乘法公式设P(A)>0则有P(AB)=P(B∣A)P(A)全概率公式和贝叶斯公式定义设S为试验E的样本空间,B1,B2,…Bn为E的一组事件,若BiBj=Ф,i≠j,i,j=1,2,…,n;B1∪B2∪…∪Bn=S则称B1,B2

6、,…,Bn为样本空间的一个划分。定理设试验E的样本空间为,A为E的事件,B1,B2,…,Bn为的一个划分,且P(Bi)>0(i=1,2,…n),则P(A)=P(A∣B1)P(B1)+P(A∣B2)+…+P(A∣Bn)P(Bn)称为全概率公式。定理设试验俄E的样本空间为S,A为E的事件,B1,B2,…,Bn为的一个划分,则       P(Bi∣A)=P(A∣Bi)P(Bi)/∑P(A|Bj)P(Bj)=P(B|Ai)P(Ai)/P(A)称为贝叶斯公式。说明:i,j均为下标,求和均是1到n  下面我再举个简单的例子来说明下。示例1考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌

7、症。(2)病人无癌症。样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:在所有人口中只有0.008的人患病。此外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。上面的数据可以用以下概率式子表示:P(cancer)=0.008,P(无cancer)=0.992P(阳性

8、cancer)=0.98,P(阴性

9、cancer)=0.02P(阳性

10、无cancer)=0.03,P(阴性

11、无cancer)=0.97假设现在有一个新病人,化验测试返回阳性,是否将病人断定为有癌症呢?我们可以来计算极大后验假设:P(阳性

12、cance

13、r)p(cancer)=0.98*0.008=0.0078P(阳性

14、无cancer)*p(无cancer)=0.03*0.992=0.0298因此,应该判断为无癌症。 贝叶斯学习理论      贝叶斯是一种基于概率的学习算法,能够用来计算显式的假设概率,它基于假设的先验概率,给定假设下观察到不同数据的概率以及观察到的数据本身(后面我们可以看到,其实就这么三点东西,呵呵)。     我们用P(h)表示没有训练样本数据前假设h拥有的初始概率,也就称为h的先验概率,它反映了我们所拥有的关于h是一个正确假设的机会的背景知识。当然如果没有这个先验知识的话,在实际处理中,我们可以简单地将每一种

15、假设都赋给一个相同的概率。类似,P(D)代表将要观察的训练样本数据D的先验概率(也就是说,在没有确定某一个假设成立时D的概率)。然后是P(D/h),它表示假设h成立时观察到数据D的概率。在机器学习中,我们感兴趣的是P(h/D),也就是给定了一个训练样本数据D,判断假设h成立的概率,这也称之为后验概率,它反映了在看到训练样本数据D后假设h成立的置信度。(注:后验概率p(h/D)反映了训练数据D的影响,而先验概率p(h)是独立于D的)。 P(h

16、D)=P(D

17、h)P(h)/p(D),从贝叶斯公式可以看出,后验概率p(h/D)取决于P(D

18、h)P(h)这个乘积,呵呵,这就是贝叶斯分类算法

19、的核心思想。我们要做的就是要考虑候选假设集合H,并在其中寻找当给定训练数据D时可能性最大的假设h(h属于H)。     简单点说,就是给定了一个训练样本数据(样本数据已经人工分类好了),我们应该如何从这个样本数据集去学习,从而当我们碰到新的数据时,可以将新数据分类到某一个类别中去。那可以看到,上面的贝叶斯理论和这个任务是吻合的。朴素贝叶斯分类 也许你觉得这理论还不是很懂,那我再举个简单的例子,让大家对这个算法的原理有个快速的认识。(注:这个示例摘抄自《机器学习》这本书

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。