欢迎来到天天文库
浏览记录
ID:58782139
大小:609.50 KB
页数:41页
时间:2020-10-03
《教材配套教学PPT――统计技术ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第7章统计技术之二贝叶斯分析聚类技术数据挖掘中的统计技术与机器学习技术7.2贝叶斯分析(BayesianAnalysis)一种参数估计方法。将关于未知参数的先验信息与样本信息相结合,根据贝叶斯公式,得出后验信息,然后根据后验信息去推断未知参数。在决策支持、风险评估、模式识别等方面都得到了很广泛的应用,被用来建立分类模型,就是著名的贝叶斯分类器(式7.13)贝叶斯分类器(BayesClassifier)一种简单、功能强大的有指导分类技术。假定所有输入属性的重要性相等,且彼此是独立的。(式7.13)30七月202127.2贝叶斯分析其中——H为要检验的假设,E为与假设相关的数
2、据样本。从分类的角度考察——假设H就是因变量,代表着预测类;数据样本E是输入实例属性值的集合;P(E
3、H)是给定输入实例属性值E时,假设H为真的条件概率;P(H)为先验概率(prioriprobability),表示在任何输入属性值E出现之前假设的概率。条件概率和先验概率可以通过训练数据计算出来。30七月20213【例7.4】基于信用卡账单促销数据集(表7.4),应用贝叶斯分类器,判断一个新实例的性别Sex。该实例的输入属性值为MagazinePromotion=Yes,WatchPromotion=Yes,LifeInsurancePromotion=No以及Credi
4、tCardInsurance=No。表7.4用于贝叶斯分类器的数据集表7.4用于贝叶斯分类器的数据集MagazinePromotionWatchPromotionLifeInsurancePromotionCreditCardInsuranceSexYesNoNoNoMaleYesYesYesYesFemaleNoNoNoNoMaleYesYesYesYesMaleYesNoYesNoFemaleNoNoNoNoFemaleYesYesYesYesMaleNoNoNoNoMaleYesNoNoNoMaleYesYesYesNoFemale30七月202151、使用贝叶斯定
5、理解决例7.4问题(1)找出先验信息。将Sex作为输出属性。表7.5依据表7.4,计算类实例个数与实例总数之比,得出每个输入属性的输出属性值的分布。(2)确定要检验的假设。要检验的假设H有两个:客户Sex为Male;客户Sex为Female。要判断新客户的性别Sex,比较两个概率值和的大小,概率值大的,其假设H成立。(3)计算和两个概率值。计算贝叶斯公式(式7.13)中的条件概率P(E
6、H)、先验概率P(H)和P(E),即计算P(E
7、Sex=Male)、P(E
8、Sex=female)、P(sex=male)、P(Sex=Female)和Sex=Male及Sex=Femal
9、e的样本数据出现的概率P(E)。可认为样本集中男女出现比例相同,则两个P(E)值相等。30七月202161、使用贝叶斯定理解决例7.4问题MagazinePromotionWatchPromotionLifeInsurancePromotionCreditCardInsuranceSexMaleFemaleMaleFemaleMaleFemaleMaleFemaleYes43222321No21424143概率:yes/total4/63/42/62/42/63/42/61/4概率:no/total2/61/44/62/44/61/44/63/4表7.5属性sex的计数和
10、概率计算P(E
11、Sex=Male)和P(Sex=Male)——P(E
12、Sex=Male)=(4/6)(2/6)(4/6)(4/6)=8/81——P(Sex=Male)=6/10=3/5计算P(E
13、Sex=Female)和P(Sex=Female)——P(E
14、Sex=Female)=(3/4)(2/4)(1/4)(3/4)=9/128——P(Sex=Female)=4/10=2/530七月202171、使用贝叶斯定理解决例7.4问题(4)根据贝叶斯公式计算两个P(H
15、E),即P(Sex=Male
16、E)和P(Sex=Female
17、E),比较两个概率值,概率值较大的假设H成立。
18、结论在P(E)值相同的情况下,因为0.0593>0.0281,则新实例的Sex最可能为Male。30七月202182、使用Weka贝叶斯分类器解决例7.4问题(1)准备数据;(2)加载训练数据,选择bayes分类器下的NaiveBayes(朴素贝叶斯);(3)设置检验集为Suppliestestset。(4)执行训练,并预测新实例,输出结果(图7.14)。图7.14NaiveBayes分类器预测未知实例的输出结果30七月202193、贝叶斯分类器存在的问题(1)概率为0问题若某属性值为0个,则会造成计算条件概率为0。如例7.4
此文档下载收益归作者所有