最新朴素贝叶斯分类及R语言实现教学讲义ppt.ppt

最新朴素贝叶斯分类及R语言实现教学讲义ppt.ppt

ID:62143363

大小:841.00 KB

页数:81页

时间:2021-04-19

最新朴素贝叶斯分类及R语言实现教学讲义ppt.ppt_第1页
最新朴素贝叶斯分类及R语言实现教学讲义ppt.ppt_第2页
最新朴素贝叶斯分类及R语言实现教学讲义ppt.ppt_第3页
最新朴素贝叶斯分类及R语言实现教学讲义ppt.ppt_第4页
最新朴素贝叶斯分类及R语言实现教学讲义ppt.ppt_第5页
资源描述:

《最新朴素贝叶斯分类及R语言实现教学讲义ppt.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、朴素贝叶斯分类及R语言实现朴素贝叶斯的理论基础贝叶斯定理便是基于条件概率,通过P(A

2、B)来求P(B

3、A):顺便提一下,上式中的分母P(A),可以根据全概率公式分解为:分类过程如图所示:似然先验概率后验概率边际似然Viagra频率YesNo总计垃圾邮件41620非垃圾邮件17980总计595100Viagra似然YesNo总计垃圾邮件4/2016/2020非垃圾邮件1/8079/8080总计5/10095/100100似然表P(Viagra

4、垃圾邮件)ⅹP(垃圾邮件)=(4/20)ⅹ(20/100)=0.04朴素

5、贝叶斯分类:除了对单词Viagra之外,还可增加对Money、Groceries和Unsubscribe的检测来改善垃圾邮件过滤器。ViagraMoneyGroceriesUnsubscribe似然YesNoYesNoYesNoYesNo总计垃圾邮件4/2016/2010/2010/200/2020/2012/208/2020非垃圾邮件1/8079/8014/8066/808/8071/8023/8057/8080总计5/9595/10034/10076/1008/10091/10035/10065/100100

6、设Viagra=Yes、Money=No、Groceries=No、Unsubscribe=Yes。垃圾邮件的条件概率:非垃圾邮件的条件概率:利用似然表中数据可得垃圾邮件的总似然:非垃圾邮件的总似然:因为0.012/0.002=6,所以认为该消息是垃圾邮件的可能性是非垃圾邮件可能的6倍,即更有可能是垃圾邮件。由于分母被忽视掉,所以还需在结果后除以分母:垃圾邮件的概率=0.012/(0.012+0.002)=0.857同样非垃圾邮件的概率=0.002/(0.012+0.002)=0.1432、拉普拉斯估计将朴素贝叶

7、斯应用于更复杂的问题前,有一些细微差别需要考虑。假设我们收到另一条消息,这次该消息包含所有4个单词:Viagra、Money、Groceries和Unsubscribe。像之前一样使用贝叶斯算法,我们可以如下计算垃圾邮件的似然:(4/20)ⅹ(10/20)ⅹ(0/20)ⅹ(12/20)ⅹ(20/100)=0非垃圾邮件的似然为:(1/80)ⅹ(14/80)ⅹ(8/80)ⅹ(23/80)ⅹ(80/100)=0.00005该消息是非垃圾邮件的概率为:0.00005/(0+0.00005)=1这些结果表明该消息是垃圾邮件

8、的概率为0,是非垃圾邮件的概率为100%。对于类的一个或多个水平,如果一个事件从来没有发生过,那么就有可能出现这样的问题。例如,单词Groceries之前从来没有出现在垃圾邮件消息中,因此,P(垃圾邮件

9、groceries)=0。由于在朴素贝叶斯公式中,概率值是链式相乘的,所以概率为0的值将导致垃圾邮件的后验概率为0,及单词Groceries能有效抵消或否定其他的证据。即该邮件很有可能被预测为垃圾邮件,但是由于垃圾邮件中没有出现单词Groceries就总是否决其他证据,并导致该邮件为垃圾邮件的概率为0。这个问题的

10、解决涉及使用一种叫做拉普拉斯估计(Laplaceestimator)的方法,该方法是以法国数学家皮埃尔—西蒙斯—拉普拉斯(Pierre-SimonLaplce)的名字命名的。本质上,拉普拉斯估计是频率表中的每个计数加上一个较小的数,这样就保证每类中的每一个特征发生的概率是非零。通常情况下,拉普拉斯估计中加上的数值设定为1,这样就保证每类—特征组合至少在数据中出现一次。下面观察拉普拉斯估计如何影响我们对消息的预测结果:取拉普拉斯值为:1给每个似然函数的分子加上1;给每个条件概率分母加上分子中增加1的总数。垃圾邮件的

11、似然为:(5/24)ⅹ(11/24)ⅹ(1/24)ⅹ(13/24)ⅹ(20/24)=0.0004非垃圾邮件的似然为:(2/84)ⅹ(15/84)ⅹ(9/84)ⅹ(24/84)ⅹ(80/100)=0.0001这表明该消息是垃圾邮件的概率为80%,是非垃圾邮件的概率为20%,显然,这个结果比由单词Groceries单独决定的结果更合理。接下来看一个例子——基于贝叶斯算法的手机垃圾短信过滤基本步骤第1步:收集数据第5步:提高模型的性能1、清理和标准化文本数据第4步:评估模型的性能第3步:基于数据训练模型第2步:探索和准

12、备数据4、可视化文本数据——词云2、将文本档拆分成词语5、为频繁出现的单词创建指示特征收3、建立训练数据集和测试数据集朴素贝叶斯算法的优缺点优点缺点简单、快速、有效依赖于一个常用的错误假设,即一样的重要性和独立特征能很好地处理噪声数据和缺失数据应用在含有大量数值特征的数据集时并不理想需要用来训练的案例相对较少,但同样能很好地处理大量的案例概率的估计值相比预测的类儿言更不可

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。