模式识别-贝叶斯统计-iris数据集.docx

模式识别-贝叶斯统计-iris数据集.docx

ID:53254746

大小:106.12 KB

页数:16页

时间:2020-04-02

模式识别-贝叶斯统计-iris数据集.docx_第1页
模式识别-贝叶斯统计-iris数据集.docx_第2页
模式识别-贝叶斯统计-iris数据集.docx_第3页
模式识别-贝叶斯统计-iris数据集.docx_第4页
模式识别-贝叶斯统计-iris数据集.docx_第5页
资源描述:

《模式识别-贝叶斯统计-iris数据集.docx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、IRIS数据集下基于最小错误率和最小风险的贝叶斯决策的实验与分析贺翔硕51011.问题描述1.1Iris数据集Iris数据集包含3类4维样本,分别标为1,2,3。其中,每类样本数目为50,且服从正态分布,每个数据样本有4个特征向量,分别代表萼片长度,萼片宽度,花瓣长度和花瓣宽度。1.2要求假设Iris数据是正态分布的,要求考虑各种实验可能性(分组数量、分组策略、先验概率等),用样本对多维正态密度函数进行参数估计(均值向量和协方差矩阵),最后对3类Iris两两分类。2.原理描述2.1贝叶斯公式已知共有类别,统计分布为正态分布

2、,已知先验概率及条件概率密度函数,对于待测样品,贝叶斯公式可以计算出该样品分属各类别的概率,即后验概率。贝叶斯公式为因此给定一个未知类别的数据样本,贝叶斯分类法将预测属于具有最高后验概率的类。故此问题的数学描述为:多元正态概率模型下的贝叶斯分类。2.2参数估计其中,条件概率密度函数为正态密度函数,用大量样本对其中未知参数进行估计,多维正态密度函数为式中,为n维向量;为n维均值向量;为n维协方差矩阵;是的逆矩阵;是的行列式。大多数情况下,条件密度可以采用多维变量的正态密度函数来模拟。为类的均值向量。2.3先验概率设数据集样本

3、有个属性,因此可用一个维列向量来表示。同时假定有个类。如果类的先验概率未知,则可以假定这些类是等概率的,即,且其中,是类中的训练样本数,而是训练样本总数。2.4贝叶斯决策2.4.1最小错误判别准则,似然比形式:其中,为似然比,为似然比阈值。2.4.2最小风险判别准则:对观测值条件下,各状态后验概率求加权和的方式,表示风险如下:其中,为将第j类判为第i类的损失。若判对i=j,则取负值或零值,表示没有损失;若判对ij,则取正值,数值大小表示损失多少。对得到的M个类型的风险值进行比较,得到使条件风险最小的类别,判别X属于该类别。

4、2.实验过程实验环境:MATLABR2014a实验策略:三类数据两两分类,考虑以下几种可能性,A.取几组数据(数量可变)?B.怎么选组(取法可变)?C.改变先验概率等...3.1最小错误判别准则:以“对第2类、第3类鸢尾花数据分类”为例,(1)准备第2类、第3类数据集,共100个样本,每个样本包含4维特征,(1)读入训练样本,d=4;c=3;N=50;D=load('Iris_data_12.txt');data=zeros(100,d);G1=zeros(50,d);G2=zeros(50,d);fori=1:1:4da

5、ta(:,i)=D(:,i+1);end%分组数量和取法在这个步骤实现fori=1:1:NG1(i,:)=data(i,:);G2(i,:)=data(i+N,:);enddisp(G1);disp(G2);(1)读入训计算各组的均值向量和协方差矩阵,即正态分布的两个重要参数均值和方差,miu1=mean(G1,1)miu2=mean(G2,1)sigma1=zeros(d,d);sigma2=zeros(d,d);fori=1:1:Nsigma1=sigma1+(G1(i,:)-miu1)'*(G1(i,:)-miu1)

6、;sigma2=sigma2+(G2(i,:)-miu2)'*(G2(i,:)-miu2);Endsigma1=sigma1/Nsigma2=sigma2/N(1)已经估计出三类数据的统计特征。首先使用最小错误判别准则进行分类,实验中采用对数形式计算。比较三个值的大小,哪个最大,就可判断X属于哪一类。最后进行了分类器判据结果的验证。%要将分类结果写入txt文本R=zeros(100,2);fid=fopen('classifier_result_23.txt','wt');fori=1:1:100R(i,1)=-1/2*(

7、data(i,:)-miu1)*inv(sigma1)*((data(i,:)-miu1)')-1/2*log(det(sigma1));R(i,2)=-1/2*(data(i,:)-miu2)*inv(sigma2)*((data(i,:)-miu2)')-1/2*log(det(sigma2));switch(compare(R(i,1),R(i,2)))caseR(i,1)fprintf(fid,'第%-2d个样本属于第1类',i);caseR(i,2)fprintf(fid,'第%-2d个样本属于第2类',

8、i);endendfclose(fid);(2)其中比较函数为,functionmax=compare(a,b)max=a;ifmax

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。