模式识别贝叶斯方法报告

模式识别贝叶斯方法报告

ID:31550292

大小:65.50 KB

页数:7页

时间:2019-01-13

模式识别贝叶斯方法报告_第1页
模式识别贝叶斯方法报告_第2页
模式识别贝叶斯方法报告_第3页
模式识别贝叶斯方法报告_第4页
模式识别贝叶斯方法报告_第5页
资源描述:

《模式识别贝叶斯方法报告》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、模式识别贝叶斯方法实验报告姓名与学号:教师:唐柯目录模式识别贝叶斯方法实验报告1目录21原理31.1基本思想31.2工作过程32实验记录42.1matlab程序42.2特殊情况42.3实验结果42.4实验人员任务分配4附录51原理1.1基本思想①已知类条件概率密度参数表达式(如符合正态分布)和先验概率(有监督,可统计得到)②利用贝叶斯公式转换成后验概率③根据后验概率大小进行决策分类1.2工作过程1.每个数据样本用一个n维特征向量X={x1,x2,...,xn}表示,对应属性A1,A2,...,An。2.m个类别C1,C2,...,Cm(在本实验中只有两类)。给定一个未知类别的数据样本X,分类器

2、将预测X属于具有最高后验概率(条件X下)的类。即将未知的样本分配给类Ci,当且仅当:P(Ci

3、X)>P(Cj

4、X)1≤j≤m且j≠i.求令P(Ci

5、X)最大的类Ci称为最大后验假设。根据贝叶斯定理P(Ci

6、X)=P(X

7、Ci)*P(Ci)/P(X)由于P(X)对于所有类别为常数,只需要P(X

8、Ci)*P(Ci)最大。类别的先验概率可以统计得到(有监督),所以最大化P(X

9、Ci)P(Ci)。类别的先验概率P(Ci)=类别Ci的训练样本数/训练样本总数3.假定各类别样本之间的属性值相互独立,则P(X

10、Ci)=ΠP(xk

11、Ci)k=1...n而概率P(xk

12、Ci)可由训练样本估值,按属性离散与否分为

13、①离散属性,则P(xk

14、Ci)=Sik/SiSik为在属性Ak上具有值xk的类别Ci的训练样本数,Si是类别Ci的样本数。②连续属性,则通常假定该属性服从高斯正态分布,因此P(xk

15、Ci)=其中,(Ci),(Ci)分别为类别Ci的均值和标准差。4.对未知样本X分类,对每个类Ci,计算P(X

16、Ci)*P(Ci)。样本X被指派到类Ci,当且仅当:P(X

17、Ci)*P(Ci)>P(X

18、Cj)*P(Cj)1≤j≤mj≠i即X被分类到P(X

19、Ci)*P(Ci)最大的类别Ci。1实验记录1.1matlab程序见附录1.2特殊情况在处理样本的第6维特征时,其方差实际得到为0(因为所有样本的第6维特征全为-1)

20、。这样在计算后验概率时,会得到除0警告,因此将方差改为一个很小的值0.0001。1.3实验结果运行时间:≤10秒训练样本数:8285个正样本的先验概率:5.62%负样本的先验概率:94.38%测试样本数:2072个正确识别的样本数:2030个识别率:97.97%两类样本的均值和方差如表1维数12345678910正样本均值-0.0804-0.0361-0.9957-0.9919-0.9829-1.0000-0.9961-0.9995-0.9955-0.9987负样本均值-0.3451-0.3252-0.9947-0.9968-0.9954-1.0000-0.9984-0.9991-0.9978

21、-0.9983正样本方差0.32300.38040.02370.09630.18680.00010.03230.00680.02960.0185负样本方差0.27350.34690.04660.04030.04430.00120.01730.02160.01620.0359表1两类样本的均值和方差表(红色部分是人为调整的值)1.4实验人员任务分配本组两人任务分配如下:附录%模式识别实验贝叶斯分类器%input:训练集train.data,测试集:test.data,每行一个样本,每行的最后一个元素为样本类别号label%output:输出预测的类别集和识别率recogRate%recogRat

22、e:正确率%读入两个矩阵test和trainloadtest.dataloadtrain.datatestData=test(:,1:(end-1));trainData=train(:,1:(end-1));testLabel=test(:,end);trainLabel=train(:,end);%类别的先验概率%label_priorP(1,1)是正样本的先验概率%label_priorP(1,2)是负样本的先验概率classNum=2;%该实验中类别数仅为2label_priorP=zeros(1,classNum);%将train按类别分组,然后分别对每类的数据求出每个属性的均值mu

23、(Ak,Ci)和样本标准差sigma(Ak,Ci)%mu(Ci,Ak),sigma(Ci,Ak)表示第Ci类数据集的属性Ak对应的均值和样本标准差groupedSet=cell(1,classNum);%空的分组数据集矩阵%样本的属性数att_number%mu(attNum,classNum),sigma(attnum,classNum)分别是第classNum类的第attNum个属性的均值和标

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。