商务数据挖掘介绍(教授制作)ln3

商务数据挖掘介绍(教授制作)ln3

ID:5407554

大小:912.00 KB

页数:30页

时间:2017-11-10

商务数据挖掘介绍(教授制作)ln3_第1页
商务数据挖掘介绍(教授制作)ln3_第2页
商务数据挖掘介绍(教授制作)ln3_第3页
商务数据挖掘介绍(教授制作)ln3_第4页
商务数据挖掘介绍(教授制作)ln3_第5页
资源描述:

《商务数据挖掘介绍(教授制作)ln3》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、简单贝叶斯方法李保坤老师西南财经大学统计学院本节内容纲要贝叶斯定理回顾简单贝叶斯(NaïveBayes)贝叶斯分类法:二类别对分类法的实用评价不对称错误分类代价和贝叶斯风险分类贝叶斯风险分类:多类别定义事件组A1,A2,…,An(n可为),称为样本空间S的一个划分,若满足:A1A2……………AnB贝叶斯定理回顾定理设A1,…,An是S的一个划分,且P(Ai)>0,(i=1,…,n),则对任何事件BS,有式子就称为贝叶斯公式。贝叶斯定理回顾例子:已知某种疾病的发病率为0.1%,该种疾病患者一个月以内的死亡率为90%;且知未患该种疾病的人一个月以内的死亡率为0.1%;现从人群

2、中任意抽取一人,问此人在一个月内死亡的概率是多少?若已知此人在一个月内死亡,则此人是因该种疾病致死的概率为多少?贝叶斯定理回顾贝叶斯公式给出了‘结果’事件B已发生的条件下,‘原因’属于事件Ai的条件概率.从这个意义上讲,它是一个“执果索因”的条件概率计算公式.相对于事件B而言,概率论中把P(Ai)称为先验概率(PriorProbability),而把P(Ai

3、B)称为后验概率(PosteriorProbability),这是在已有附加信息(即事件B已发生)之后对事件发生的可能性做出的重新认识,体现了已有信息带来的知识更新.贝叶斯定理回顾分类问题1这个人会不会逃税?税号去年退税

4、婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是分类问题2名称胎生会飞水中生活有腿类别Human是否否是哺乳动物python否否否否非哺乳动物salmon否否是否非哺乳动物whale是否是否哺乳动物frog否否有时是非哺乳动物komodo否否否是非哺乳动物bat是是否是哺乳动物pigeon否是否是非哺乳动物cat是否否是哺乳动物leopard_shark是否是否非哺乳动物turtle否否有时是非哺乳动物penguin否否有时是

5、非哺乳动物porcupine是否否是哺乳动物eel否否是否非哺乳动物salamander否否有时是非哺乳动物gila_monster否否否是非哺乳动物platypus否否否是哺乳动物owl否是否是非哺乳动物dolphin是否是否哺乳动物eagle否是否是非哺乳动物胎生会飞水中生活有腿类别是否是否?贝叶斯分类方法把每一个属性(输入)和分类变量(输出)都看作随机变量对于具有属性值(A1,A2,…,An)的观测记录目标是预测类别C特别地,我们想找能够最大化P(C

6、A1,A2,…,An)的C值能否从直接数据中估计P(C

7、A1,A2,…,An)?贝叶斯分类方法方法:使用贝叶斯定理对于分

8、类变量C的所有值计算后验概率P(C

9、A1,A2,…,An),选择C使得P(C

10、A1,A2,…,An)最大等价于选择C使得P(A1,A2,…,An

11、C)P(C)最大如何估计P(A1,A2,…,An

12、C)?简单贝叶斯假设在给定的类别上属性变量Ai相互独立:P(A1,A2,…,An

13、C)=P(A1

14、Cj)P(A2

15、Cj)…P(An

16、Cj)对所有的Ai和Cj计算P(Ai

17、Cj).如果对某一个Cj,P(Cj)P(Ai

18、Cj)最大,新的数据点就被分类到Cj。分类问题1税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95

19、k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是类别:P(Ck)=Nk/N例如,P(C=否)=7/10, P(C=是)=3/10Nk是类别C=Ck.的数量对离散属性:P(Ai

20、Ck)=

21、Aik

22、/Nk

23、Aik

24、是属性值为Ai且属于Ck的记录数量例如:P(婚姻状况=婚姻中

25、否)=4/7P(去年退税=是

26、是)=0对于连续属性:离散化把属性的范围划分为许多段:每一段设定一个有序值这样会违反独立性假设估计概率密度:假定属性服从正态分布估计该属性分布的参数(例如,均值和标准差)在得到概率密度之后,我们可以使用它估计条件概率P(Ai

27、c)分类问

28、题1分类问题1税号去年退税婚姻状况可征税收入逃税1是单身125k否2否婚姻中100k否3否单身70k否4是婚姻中120k否5否离婚95k是6否婚姻中60k否7是离婚220k否8否单身85k是9否婚姻中75k否10否单身90k是每一对(Ai,ci)的正态分布:例如对于(收入,逃税=否):在逃税=否的情况下,可征税收入的样本均值=110样本方差=2975P(X

29、逃税=否)=P(去年退税=否

30、逃税=否)P(婚姻中

31、逃税=否)P(收入=120K

32、逃税=否) =4/74/70.0072=0.0024P(X

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。