资源描述:
《第2章 贝叶斯决策》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、贝叶斯决策理论BayesianDecisionTheory贝叶斯决策理论引言贝叶斯决策常用的准则分类器,判别函数,决策面正态分布的判别函数引言机器自动识别分类,能不能避免错分类,做到百分之百正确?怎样才能减少错误?错分类往往难以避免,因此就要考虑减小因错分类造成的危害损失,那么有没有可能对危害大的错误严格控制?什么是先验概率、类概率密度函数和后验概率?它们的定义和相互关系如何?贝叶斯公式正是体现三者关系的式子。引言贝叶斯决策理论贝叶斯统计决策理论是处理模式分类问题的基本理论之一,对模式分析和分类器(Classifier)的设计起指导
2、作用。贝叶斯决策的两个要求各个类别的总体概率分布(先验概率和类条件概率密度)是已知的要决策分类的类别数是一定的引言在连续情况下,假设对要识别的物理对象有d种特征观察量x1,x2,…xd,这些特征的所有可能的取值范围构成了d维特征空间。称向量假设要研究的分类问题有c个类别,类型空间表示为:为d维特征向量。引言评价决策有多种标准,对于同一个问题,采用不同的标准会得到不同意义下“最优”的决策。贝叶斯决策常用的准则:最小错误率准则最小风险准则Neyman-Pearson准则最小最大决策准则贝叶斯决策理论引言贝叶斯决策常用的准则分类器,判别函
3、数,决策面正态分布的判别函数Bayesian置信网Bayes决策准则最小错误率准则最小风险准则Neyman-Pearson准则最小最大决策准则假设你昨晚目击了一起夜间出租车肇事逃逸事件,你记得看到的肇事出租车是蓝色的,而且你还知道下面2条信息,那么你会认为肇事出租车是什么颜色的?(1)西安所有的出租车都是绿色或蓝色的;(2)大量实验表明,在昏暗的灯光条件下,人眼对于蓝色和绿色的区分的可靠度是75%;假设随后你又了解到第3条信息:(3)西安的出租车10辆中有9辆是绿色的,此时你又会得出怎样的结论?SomeaboutBayes(1)用B
4、表示事件“肇事车是蓝色的”,用LB表示“肇事车看起来是蓝色的”,则对颜色区分准确程度的概率可以表示为P(LB
5、B)=0.75P(~LB
6、~B)=0.75对当肇事车看起来是蓝色的情况下,确实是蓝色的概率为P(B
7、LB)∝P(LB
8、B)P(B)∝0.75P(B)P(~B
9、LB)∝P(LB
10、~B)P(~B)∝0.25(1-P(B))而西安的出租车10辆中有9辆是绿色的,则给出了先验概率P(B)=0.1,于是有P(B
11、LB)∝0.75×0.1=0.075P(~B
12、LB)∝0.25(1-P(B))=0.25×0.9=0.225P(B
13、LB)=
14、0.075/0.072+0.225=0.25P(~B
15、LB)=0.225/0.072+0.225=0.75因此肇事车辆为绿色。SomeaboutBayes(2)一所学校里面有60%的男生,40%的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是女生的概率是多大吗?算出学校里面有多少穿长裤的,然后在这些人里面再算出有多少女生?即要求的就是P(Girl
16、Pants)。假设校园内总人数为U,
17、计算的结果是U*P(Girl)*P(Pants
18、Girl)/[U*P(Boy)*P(Pants
19、Boy)+U*P(Girl)*P(Pants
20、Girl)]。容易发现这里校园内人的总数是无关的,可以消去。于是得到P(Girl
21、Pants)=P(Girl)*P(Pants
22、Girl)/[P(Boy)*P(Pants
23、Boy)+P(Girl)*P(Pants
24、Girl)]注意,如果把上式收缩起来,分母其实就是P(Pants),分子其实就是P(Pants,Girl)。而这个比例很自然地就读作:在穿长裤的人(P(Pants))里面有多少(穿长
25、裤)的女孩(P(Pants,Girl))。上式中的Pants和Boy/Girl可以指代一切东西,所以其一般形式就是:P(B
26、A)=P(A
27、B)*P(B)/[P(A
28、B)*P(B)+P(A
29、~B)*P(~B)]最小错误率准则黑色:第一类粉色:第二类绿色:哪一类?统计决策理论就是根据每一类总体的概率分布决定未知类别的样本属于哪一类!最小错误率准则先验概率:类条件概率:后验概率:贝叶斯公式未获得观测数据之前类别的分布观测数据在各类别种情况下的分布X属于哪一类的概率其中:最小错误率准则例:医生要根据病人血液中白细胞的浓度来判断病人是否患血液
30、病。两类识别问题:患病,未患病根据医学知识和以往的经验,医生知道:患病的人,白细胞的浓度服从均值2000方差1000的正态分布;未患病的人,白细胞的浓度服从均值7000,方差3000的正态分布;(类条件概率)一般人群中,患病的人数比例