贝叶斯最大后验概率准则对iris数据的分类

贝叶斯最大后验概率准则对iris数据的分类

ID:39310653

大小:271.29 KB

页数:16页

时间:2019-06-30

贝叶斯最大后验概率准则对iris数据的分类_第1页
贝叶斯最大后验概率准则对iris数据的分类_第2页
贝叶斯最大后验概率准则对iris数据的分类_第3页
贝叶斯最大后验概率准则对iris数据的分类_第4页
贝叶斯最大后验概率准则对iris数据的分类_第5页
资源描述:

《贝叶斯最大后验概率准则对iris数据的分类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1、实验目的1.了解多元正态分布2.对多元正态分布利用矩估计法进行参数估计,了解参数估计的过程3.掌握利用贝叶斯最大后验概率准则对三类数据进行两两分类的方法2、实验原理Iris数据集共有三组,分别为setosa,versicolou和virginica,每一组都是一个单独的类别,此实验中,默认setosa为第一类,versicolou为第二类,virginica为第三类,每组50个数据,每个数据都是一个四维向量,且服从四维正态分布。即类别空间为:Ω=ω1,ω2,ω3数据向量为:x=(x1,x2,x3,x4)T

2、2.1多元正态分布随机向量X=(X1,…,Xp)'的分布密度函数有如下形式:px1,x2,…,xp=px=12π42B12exp-12x-μT*B-1*x-μ(1)其中x=(x1,x2,…,xp)T为常量,μ=(μ1,μ2,…,μp)T为随机向量的均值向量,B为p*p的协方差矩阵,则称X服从p元正态分布,记X~Np(μ,B)为。因此,对于多元正态分布而言,只需要确定均值向量和协方差矩阵即可确定概率密度函数。2.2参数估计由于三组数据均服从四维正态分布,首先要确定数据的具体分布,因此在分类之前,利用一部分实验数

3、据进行训练,分别得到三组数据的四维正态分布参数。即μ1,B1,(μ2,B2),(μ3,B3),分别为setosa,versicolou和virginica三组数据的参数。实验中,参数估计采用矩估计法,即利用样本(训练数据)的均值向量和协方差矩阵作为总体的均值向量和协方差矩阵的估计值,进而得到每组数据的分布密度函数。以第一组数据为例:setosa中的数据x=(x1,x2,x3,x4)T服从均值为四维列向量μ1=(μ1,μ2,μ3,μ4)T,4*4维协方差矩阵B的四元正态分布。均值向量和协方差矩阵的估计式为:μ1

4、=1Ni=1Nxk(2)B1=Ex-μ*x-μT=1Ni=1Nxk-μ1xk-μ1T(3)从第一类数据中选取部分数据按照上式进行训练,得到第一类数据的正态分布参数,因而可求得其密度函数。三类数据都按照上公式,选取部分实验数据得出正态分布的均值向量和协方差矩阵。进而得到自己的概率密度公式px=12π42B12exp-12x-μT*B-1*x-μ(4)2.3贝叶斯最大后验概率准则利用贝叶斯准则对数据进行两两分类时,以贝叶斯公式为基础,利用测量到的对象特征配合必要的先验信息,求出两种可能分类情况的后验概率,选取后验

5、概率大的,作为分类的结果。即最大后验概率准则,也称最小错误概率准则。以第一类和第二类为例,对这两组数据进行分类。两组数据经过参数估计之后,分别得到条件概率密度p(x

6、ω1),p(x

7、ω2)。根据贝叶斯准则:pω1x=pxω1pω1px(5)pω2x=pxω2pω2px(6)贝叶斯最大后验概率准则进行分类时,根据输入的列向量x=(x1,x2,x3,x4)T,分别计算两类的后验概率,判x为后验概率的大类别,即:如果pω1x>pω2x则判别x为ω1类(第一类)即:pω1x=p(x

8、ω1)p(ω1)p(x)>p(x

9、

10、ω2)p(ω2)p(x)=pω2x(7)即:l12=p(x

11、ω1)p(x

12、ω2)>p(ω2)p(ω1)=θ21(9)因此根据最大后验概率准则判断x所属的类别,转变为比较似然比l12和阈值θ21的大小。实验中首先求得两类数据的条件概率密度p(x

13、ω1)和p(x

14、ω2),关于先验概率pω1和p(ω2),实验进行时,将待分类的两组数据合并放入一个100*4的矩阵中,每次随机选取待分类数据x,因此先验概率pω1=pω2(9)故而,判别式(8)简化为:pxω1>pxω2(10)因此,根据上式即可对输入向量x进行分类。如

15、果p(x

16、ω1)>p(x

17、ω2)则判别x为ω1类(第一类)同理如果p(x

18、ω2)>p(x

19、ω1)则判别x为ω2类(第二类)3、实验过程实验中,根据实验原理,首先对两组数据分别进行训练,得到其四维正态分布的密度函数,再根据最大后验概率准则进行分类。3.1参数估计已知三组数据均为X~N4(μ,B)的四元正态分布,即px1,x2,x3,x4=px=1(2π)42B12exp-12x-μT*B-1*x-μ其中,μ为均值向量,B为协方差矩阵,x和μ均为四维列向量。根据式(2)和(3)对每组数据的均值向量和协方差矩阵进行

20、估计。参数估计即选取部分数据进行训练,数据可以采用随机选取的方式,也可以从开始固定的选取若干数据进行训练。同时,参与训练的数据多少也会影响最后的分类结果。实验中尝试了不同的选取方法,结果如下:(1)从前向后依次选取10个数据进行训练:(2)从前向后依次选取15个数据进行训练:(3)从前向后依次选取20个数据进行训练:(4)从前向后依次选取25个数据进行训练:(5)随机选取15个数据进行训练:(6)随

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。