欢迎来到天天文库
浏览记录
ID:48006433
大小:915.36 KB
页数:9页
时间:2020-01-12
《机器学习_(贝叶斯分类算法与应用).pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、机器学习算法day02_贝叶斯分类算法及应用课程大纲朴素贝叶斯算法原理Bayes算法概述Bayes算法思想Bayes算法要点朴素贝叶斯算法案例1需求Python实现朴素贝叶斯算法案例2需求Python实现课程目标:1、理解朴素贝叶斯算法的核心思想2、理解朴素贝叶斯算法的代码实现3、掌握朴素贝叶斯算法的应用步骤:数据处理、建模、运算和结果判定1.朴素贝叶斯分类算法原理1.1概述贝叶斯分类算法是一大类分类算法的总称贝叶斯分类算法以样本可能属于某类的概率来作为分类依据朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种注:朴素的意思是条件概率独立性批注[dht1]:此处
2、要想真正理解,需要有概率论的基础知识P(A
3、x1x2x3x4)=p(A
4、x1)*p(A
5、x2)p(A
6、x3)p(A
7、x4)则为条件概率独立1.2算法思想P(xy
8、z)=p(xyz)/p(z)=p(xz)/p(z)*p(yz)/p(z)朴素贝叶斯的思想是这样的:如果一个事物在一些属性条件发生的情况下,事物属于A的概率>属于B的概率,则判定事物属于A通俗来说比如,你在街上看到一个黑人,我让你猜这哥们哪里来的,你十有八九猜非洲。为什么呢?在你的脑海中,有这么一个判断流程:1、这个人的肤色是黑色<特征>2、黑色人种是非洲人的概率最高<条件概率:黑色条件下是非洲人的概率
9、>3、没有其他辅助信息的情况下,最好的判断就是非洲人这就是朴素贝叶斯的思想基础。再扩展一下,假如在街上看到一个黑人讲英语,那我们是怎么去判断他来自于哪里?提取特征:肤色:黑语言:英语黑色人种来自非洲的概率:80%黑色人种来自于美国的概率:20%讲英语的人来自于非洲的概率:10%讲英语的人来自于美国的概率:90%在我们的自然思维方式中,就会这样判断:这个人来自非洲的概率:80%*10%=0.08这个人来自美国的概率:20%*90%=0.18我们的判断结果就是:此人来自美国!其蕴含的数学原理如下:p(A
10、xy)=p(Axy)/p(xy)=p(Axy)/p(x)p(
11、y)=p(A)/p(x)*p(A)/p(y)*p(xy)/p(xy)=p(A
12、x)p(A
13、y)朴素贝叶斯分类器朴素贝叶斯分类器的表示形式:当特征为为x时,计算所有类别的条件概率,选取条件概率最大的类别作为待分类的类别。由于上公式的分母对每个类别都是一样的,因此计算时可以不考虑分母,即朴素贝叶斯的朴素体现在其对各个条件的独立性假设上,加上独立假设后,大大减少了参数假设空间。1.3算法要点1.3.1算法步骤1、分解各类先验样本数据......中的特征2、计算各类数据中,各特征的条件概率(比如:特征1出现的情况下,属于A类的概率p(A
14、特征1),属于B类的概率p(B
15、
16、特征1),属于C类的概率p(C
17、特征1)......)3、分解待分类数据中......的特征(特征1、特征2、特征3、特征4......)4、计算各特征的各条件概率的乘积,如下所示:判断为A类的概率:p(A
18、特征1)*p(A
19、特征2)*p(A
20、特征3)*p(A
21、特征4).....判断为B类的概率:p(B
22、特征1)*p(B
23、特征2)*p(B
24、特征3)*p(B
25、特征4).....判断为C类的概率:p(C
26、特征1)*p(C
27、特征2)*p(C
28、特征3)*p(C
29、特征4)...........5、结果中的最大值就是该样本所属的类别1.3.2算法应用举例XX点评、淘X等
30、电商上都会有大量的用户评论,比如:1、衣服质量太差了!!!!颜色根本不纯!!!02、我有一有种上当受骗的感觉!!!!03、质量太差,衣服拿到手感觉像旧货!!!04、上身漂亮,合身,很帅,给卖家点赞15、穿上衣服帅呆了,给点一万个赞16、我在他家买了三件衣服!!!!质量都很差!0其中1/2/3/6是差评,4/5是好评现在需要使用朴素贝叶斯分类算法来自动分类其他的评论,比如:a、这么差的衣服以后再也不买了b、帅,有逼格……1.3.3算法应用流程1、分解出先验数据中的各特征(即分词,比如“衣服”“质量太差”“差”“不纯”“帅”“漂亮”,“赞”……)2、计算各类别(好
31、评、差评)中,各特征的条件概率(比如p(“衣服”
32、差评)、p(“衣服”
33、好评)、p(“差”
34、好评)、p(“差”
35、差评)……)3、分解出待分类样本的各特征(比如分解a:“差”“衣服”……)4、计算类别概率P(好评)=p(好评
36、“差”)*p(好评
37、“衣服”)*……P(差评)=p(差评
38、“差”)*p(差评
39、“衣服”)*……5、显然P(差评)的结果值更大,因此a被判别为“差评”2.朴素贝叶斯分类算法案例12.1需求客户评论分类:以在线社区的留言板为例。为了不影响社区的发展,我们要屏蔽侮辱性的言论,所以要构建一个快速过滤器,如果某条留言使用了负面或者侮辱性的语言,那么就
40、将该留言标识为内容不当。过滤这类内容是
此文档下载收益归作者所有