资源描述:
《基于朴素贝叶斯算法的垃圾邮件分类-(Python实现)ppt课件.pptx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Presentation基于朴素贝叶斯算法的垃圾邮件分类(Python实现)EastChinaNormalUniversity2021年9月21日CONTENTS目录0简介1回顾:基本方法2算法3拉普拉斯平滑4实例:邮件分类5流行学习2021年9月21日EastChinaNormalUniversity简介朴素贝叶斯法:是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y.朴素贝叶斯法实现简单,学习和预
2、测的效率都很高,是业界常用的一种方法。2021年9月21日EastChinaNormalUniversityReview1:分类问题综述12021年9月21日EastChinaNormalUniversity垃圾邮件非垃圾邮件……各种化验检测数据来推断病情,这时医生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。回顾算法拉普拉斯平滑邮件分类流行学习小结Review2:贝叶斯定理2021年9月21日EastChinaNormal
3、University回顾算法拉普拉斯平滑邮件分类流行学习小结算法:2021年9月21日EastChinaNormalUniversityRIDageincomestudentcredit_ratingclass_buy_pc1youthhighnofairno2youthhighnoexcellentno3midhighnofairyes4seniormediumnofairyes5seniorlowyesfairyes6seniorlowyesexcellentno7midlowyesexcellentyes8youthmediumnof
4、airno9youthlowyesfairyes10seniormediumyesfairyes11youthmediumyesexcellentyes12midmediumnoexcellentyes13midhighyesfairyes14seniormediumnoexcellentnoTrain_dataset(表格来源:数据挖掘:概念与技术第3版)回顾算法拉普拉斯平滑邮件分类流行学习小结2021年9月21日EastChinaNormalUniversitytest:X=(age=youth,income=mediu,student
5、=yes,credit_rating=fair)(1)计算先验概率P(buy_pc=yes)=9/14=0.643P(buy_pc=no)=5/14=0.357条件概率:P(age=youth
6、buy_pc=yes)=2/9=0.22P(age=youth
7、buy_pc=no)=2/5=0.600P(income=medium
8、buy_pc=yes)=4/9=0.444P(income=medium
9、buy_pc=no)=2/5=0.400P(student=yes
10、buy_pc)=1/5=0.200P(credit_rating=fair
11、
12、buy_pc=yes)=6/9=0.667P(credit_rating=fair
13、buy_pc=no)=2/5=0.400回顾算法拉普拉斯平滑邮件分类流行学习小结2021年9月21日EastChinaNormalUniversity回顾算法拉普拉斯平滑邮件分类流行学习小结如果遇到零概率值怎么办?拉普拉斯平滑。EastChinaNormalUniversity2021年9月21日回顾算法拉普拉斯平滑邮件分类流行学习小结流程图:EastChinaNormalUniversity获取训练样本确定特征属性对每个特征属性就按所有划分的条件概率准备
14、阶段分类器训练阶段应用阶段2021年9月21日回顾算法拉普拉斯平滑邮件分类流行学习小结准备数据从文本中构建词向量(贝努利模型)EastChinaNormalUniversity从文本中构建邮件向量(words2vec):通常有两种实现方式:一种是基于贝努利模型,一种是基于多项式模型实现。我们采用前一种实现方式,将每个词的出现与否作为一个特征(词集模型,相对应的是词袋模型),不考虑单词在文档中出现的次数,因此在这个意义上相当于每个假设词是等权重的。具体如下:(1)遍历所有邮件,创建一个包含所有文档中出现的不重复的单词集合(即特征)。(2)对于
15、每一封邮件创建一个与单词集合等长的0向量。接着遍历邮件中所有单词,如果出现在单词集合中则把对应的值设为1。2021年9月21日回顾算法拉普拉斯平滑邮件分类流行学习小结训练模型(技