基于朴素贝叶斯算法的垃圾邮件分类(Python实现)

基于朴素贝叶斯算法的垃圾邮件分类(Python实现)

ID:39477873

大小:1.77 MB

页数:21页

时间:2019-07-04

基于朴素贝叶斯算法的垃圾邮件分类(Python实现)_第1页
基于朴素贝叶斯算法的垃圾邮件分类(Python实现)_第2页
基于朴素贝叶斯算法的垃圾邮件分类(Python实现)_第3页
基于朴素贝叶斯算法的垃圾邮件分类(Python实现)_第4页
基于朴素贝叶斯算法的垃圾邮件分类(Python实现)_第5页
资源描述:

《基于朴素贝叶斯算法的垃圾邮件分类(Python实现)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Presentation基于朴素贝叶斯算法的垃圾邮件分类(Python实现)EastChinaNormalUniversity2021年9月17日CONTENTS目录0简介1回顾:基本方法2算法3拉普拉斯平滑4实例:邮件分类5流行学习2021年9月17日EastChinaNormalUniversity简介朴素贝叶斯法:是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y.朴素贝叶斯法实现简单,学习和预测的效

2、率都很高,是业界常用的一种方法。2021年9月17日EastChinaNormalUniversity在从数学角度来说,分类问题可做如下定义:设输入空间为n维向量的集合,输出空间为类标记集合={,,,,}。输入为特征向量,确定映射规=(),则输出为类标记。不考虑模糊数学里的模糊集情况。例如,医生对病人进行诊断就是一个典型的分类过程,任何一个医生都无法直接看到病人的病情,只能观察病人表现出的症状Review1:分类问题综述12021年9月17日EastChinaNormalUniversity垃圾邮件非垃圾邮件……各种化验检测数据来推断病情,这时医

3、生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。回顾算法拉普拉斯平滑邮件分类流行学习小结朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体地学习先验概率分布和条件概率分布。先验概率分布:P(Y=),k=1,2,…,K条件概率分布(假设,本project中即邮件第j个特征可取值S个值,S=2):P(X=

4、Y=)=P(=,…,=

5、Y=),k=1,2,…,K朴素贝叶斯法对条件概率做了条件独立性的假设,P(X=

6、Y=)=P(=,

7、…,=

8、Y=)=朴素贝叶斯分类器可以表示为:=()=argmax注意到分母对所有的都是相同的,所以=()=argmaxReview2:贝叶斯定理2021年9月17日EastChinaNormalUniversity回顾算法拉普拉斯平滑邮件分类流行学习小结算法:2021年9月17日EastChinaNormalUniversityRIDageincomestudentcredit_ratingclass_buy_pc1youthhighnofairno2youthhighnoexcellentno3midhighnofairyes4seniorme

9、diumnofairyes5seniorlowyesfairyes6seniorlowyesexcellentno7midlowyesexcellentyes8youthmediumnofairno9youthlowyesfairyes10seniormediumyesfairyes11youthmediumyesexcellentyes12midmediumnoexcellentyes13midhighyesfairyes14seniormediumnoexcellentnoTrain_dataset(表格来源:数据挖掘:概念与技术第3版)回顾

10、算法拉普拉斯平滑邮件分类流行学习小结2021年9月17日EastChinaNormalUniversitytest:X=(age=youth,income=mediu,student=yes,credit_rating=fair)(1)计算先验概率P(buy_pc=yes)=9/14=0.643P(buy_pc=no)=5/14=0.357条件概率:P(age=youth

11、buy_pc=yes)=2/9=0.22P(age=youth

12、buy_pc=no)=2/5=0.600P(income=medium

13、buy_pc=yes)=4/9=0.44

14、4P(income=medium

15、buy_pc=no)=2/5=0.400P(student=yes

16、buy_pc)=1/5=0.200P(credit_rating=fair

17、buy_pc=yes)=6/9=0.667P(credit_rating=fair

18、buy_pc=no)=2/5=0.400回顾算法拉普拉斯平滑邮件分类流行学习小结2021年9月17日EastChinaNormalUniversitytest:X=(age=youth,income=mediu,student=yes,credit_rating=fair)(2)对于给定的

19、实例test:X,计算,k=1,2,…,KP(X

20、buy=yes)=P(age=youth

21、buy_pc=yes)*P(income=m

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。