资源描述:
《模式识别实验一.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、一、实验目的1.掌握统计判别问题的含义,理解贝叶斯判别原理。2.编写两类正态分布模式的贝叶斯分类程序。3.观察各种因素对分类错误概率的影响。二、实验原理模式识别的分类问题是根据识别对象特征的观察值将其分到某个类别中去,统计决策理论是处理模式分类问题的基本理论之一。贝叶斯判别原理是统计模式识别中的一个基本方法。(1)贝叶斯判别原理贝叶斯分类又称为最大后验概率(MAP)分类,其基本原理如下:两种类别标号分别为,12a)分类所使用的特征为n维特征向量x[]xxx12nb)两类先验概率值分别为P,P12c)两类条件概率密度函数分别为px
2、,px
3、12对于
4、两类别,i1,2分类问题,已知先验概率P()及条件概率密度函数iipx
5、i,可以得出某样本属于各类别的概率,即后验概率。pPx
6、ii()Pi(
7、)x,1,2(1)iPx后验概率代表了x是属于1类的概率,x来自*类的概率大则判别x属于第i*i类,即P(
8、)xP(
9、)x则x121(2)P(
10、)xP(
11、)x则x122p(x
12、)称似然函数,将其代入(2)式中ipx(
13、)()Ppx(
14、)(P)则x11221(3)px(
15、)()Ppx(
16、)(P)则x11222(2)样本正态分布的贝叶斯分类器对于具有多个特征
17、参数的样本(本实验的IRIS数据为n=4维)。假设本实验所使用的IRIS鸢尾花数据中各类数据服从正态分布,则概率密度函数为11T1Px(
18、)exp[(x)C(x)]i1,2(4)in1iii(2)22C2i,,,其中,特征向量x[,,xx12,xn]是n维列向量,i12n是n维均值向量,C是nn协方差矩阵;C为矩阵C的行列式。且Ex,iiiiiTCiEixixi,Exi表示对类别属于i的模式作数学期望运算。因此判别函数可表示为Jx()Px(
19、)()Piii对判别函数取自然对数111nJx
20、()(x)C(x)ln()PlnCln(2)(5)iiiiii222在样本维数相同的情况下,上式中的最后一项为常数,与样本所属类别无关,所以可以将其从判别函数中去掉,不会改变分类结果。判别函数化简为111Jx()(x)C(x)ln()PlnC(6)iiiiii22然后根据(1)中所述最大后验准则判断样本所属类别。三、实验过程实验数据:IRIS数据集实验假设:各类数据服从正态分布实验方法:最大后验概率实验环境:MATLAB2010b(1)数据导入导入iris_dataset.txt文件中数据,并将三类数据分别存储,每个数据都为一个4维行
21、特征向量。closeall;clearall;clc;%---------数据导入----------%iris_dataset=load('iris_dataset.txt');%导入iris数据集%分别存储3类数据iris_w1=iris_dataset(1:50,:);iris_w2=iris_dataset(51:100,:);iris_w3=iris_dataset(101:150,:);(2)抽取训练数据设置每组训练数据个数NUM_train,从每类50个数据中随机抽取NUM_train个向量作为训练数据并存储,剩余数据作为测试样本存储。%---------数据导入
22、----------%iris_dataset=load('iris_dataset.txt');%导入iris数据集%分别存储3类数据iris_w1=iris_dataset(1:50,:);iris_w2=iris_dataset(51:100,:);iris_w3=iris_dataset(101:150,:);%---------抽取训练数据----------%%各组训练数据个数NUM_train=30;%在各组中随机抽取NUM_train个训练样本%随机打乱各组数据顺序temp_w1=randperm(50);temp_w2=randperm(50);temp_w3
23、=randperm(50);%取随机打乱顺序后的前NUM_train个数据作为训练样本,并存储%第5列数据代表其所属分类fori=1:NUM_traindata_train_w1(i,:)=iris_w1(temp_w1(i),:);data_train_w2(i,:)=iris_w2(temp_w2(i),:);data_train_w3(i,:)=iris_w3(temp_w3(i),:);end%选择非训练样本作为测试样本,并存储%第5列数据代表其所属分类fori=(NUM_train