数据仓库与数据挖掘技术2贝叶斯只是课件.ppt

数据仓库与数据挖掘技术2贝叶斯只是课件.ppt

ID:61278294

大小:1.51 MB

页数:19页

时间:2021-01-23

数据仓库与数据挖掘技术2贝叶斯只是课件.ppt_第1页
数据仓库与数据挖掘技术2贝叶斯只是课件.ppt_第2页
数据仓库与数据挖掘技术2贝叶斯只是课件.ppt_第3页
数据仓库与数据挖掘技术2贝叶斯只是课件.ppt_第4页
数据仓库与数据挖掘技术2贝叶斯只是课件.ppt_第5页
资源描述:

《数据仓库与数据挖掘技术2贝叶斯只是课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库与数据挖掘技术2贝叶斯贝叶斯定理——例子某电子设备厂所用的元件是由三家元件厂提供的,根据以往的记录,这三个厂家的次品率分别为0.02,0.01,0.03,提供元件的份额分别为0.15,0.8,0.05,设这三个厂家的产品在仓库是均匀混合的,且无区别的标志。问题:在仓库中随机地取一个元件,若已知它是次品,分析此次品出自何厂家的概率最大?8/15/20212题解设A取到的元件是次品,Bi表示取到的元件是由第i个厂家生产的,则P(B1)=0.15,P(B2)=0.8,P(B3)=0.05那么,在仓库中随机地取一个元件,它是次品的

2、概率为由贝叶斯公式结果表明,这个次品来自第2家工厂的可能性最大,来自第1家工厂的概率次之,来自第3家工厂的概率最小。8/15/20213简单贝叶斯分类器(朴素贝叶斯) 进行分类操作处理的步骤(1)8/15/20214简单贝叶斯分类器 进行分类操作处理的步骤(2)8/15/20215简单贝叶斯分类器 进行分类操作处理的步骤(3)8/15/20216贝叶斯分类器的应用【例】利用贝叶斯分类方法预测一个数据对象X(年龄<30,收入=中,是否学生=是,信用=一般)类别(P137)序号年龄收入是否学生信用购买PC1<=30高否中否2<=30高

3、否优否331~40高否中是4>40中否中是5>40低是中是6>40低是优否731~40低是优是8<=30中否中否9<=30低是中是10>40中是中是11<=30中是优是1231~40中否优是1331~40高是中是14>40中否优否利用表中的数据作为训练样本集和贝叶斯分类器来帮助预测未知(类别)数据样本类别。训练数据集包含年龄、收入、是否学生和信用这四个属性,其类别属性为购买PC。它有两个不同的取值:{是,否}。8/15/20217设c1对应类别购买PC=是,即c1=9;c2对应类别购买PC=否,即c2=5;因此对未知样本所要进行的

4、分类就是:X={年龄<30,收入=中,是否学生=是,信用=一般}为了获得P(X

5、Ci)P(Ci)(其中i=1,2),P(Ci)为每个类别的事前概率,所进行的具体计算结果描述如下:P(C1)=9/14=0.643P(C2)=5/14=0.357为了计算P(X

6、Ci)P(Ci)(i=1,2),需要首先进行以下运算:P(年龄<30

7、C1)=2/9=0.222P(年龄<30

8、C2)=3/5=0.600P(收入=中

9、C1)=4/9=0.444P(收入=中

10、C2)=2/5=0.400P(是否学生=是

11、C1)=6/9=0.667P(是否学生=是

12、

13、C2)=1/5=0.200P(信用=一般

14、C1)=6/9=0.667P(信用=一般

15、C2)=2/5=0.400利用以上所获得的计算结果,可以得到:P(X

16、C1)=0.222×0.444×0.667×0.667=0.044P(X

17、C2)=0.600×0.400×0.200×0.400=0.019最后计算P(X

18、Ci)P(Ci)(i=1,2)P(X

19、C1)P(C1)=0.044×0.643=0.028P(X

20、C2)P(C2)=0.019×0.357=0.007因为P(X

21、C1)P(C1)>P(X

22、C2)P(C2),所以根据贝叶斯分类

23、方法得出结论:数据对象X的“购买PC类=是”,即X属于购买PC类8/15/20218练习:下表是其保险公司某项健康保险业务销售的客户记录现有一名客户年龄是32岁,收入水平中等,没有固定职业,信用等级良好,用贝叶斯分类器预测该客户是否购买这种健康保险。8/15/20219题解8/15/202110贝叶斯分类器的作用从理论上讲与其他分类器相比,贝叶斯分类器具有最小的错误率。但实际上由于其所依据的类别独立性假设和缺乏某些数据的准确概率分布,从而使得贝叶斯分类器预测准确率受到影响。但各种研究结果表明:与决策树和神经网络分类器相比,贝叶斯分

24、类器在某些情况下具有更好的分类效果。贝叶斯分类器的另一个用途就是它可为那些没有利用贝叶斯定理的分类方法提供了理论依据。例如在某些特定假设情况下,许多神经网络和曲线拟合算法的输出都同贝叶斯分类器一样使得事后概率取最大8/15/202111贝叶斯信念网络基本贝叶斯分类器是基于各类别相互独立这一假设来进行分类计算的,也就是要求若给定一个数据样本类别,其样本属性的取值应是相互独立的。这一假设简化了分类计算复杂性。若这一假设成立,则与其他分类方法相比,基本贝叶斯分类器是最准确的;但实际上变量间的相互依赖情况是较为常见的。贝叶斯信念网络就是用

25、于描述这种相互关联的概率分布。该网络能够描述各属性子集之间有条件的相互独立。它提供了一个图形模型来描述其中的因果关系,而学习也正是基于这一模型进行的。这一图形模型就称为贝叶斯信念网络(常简称为信念网络)。8/15/202112贝叶斯信念网络8/15

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。