资源描述:
《基于Dirichlet分布的贝叶斯分类算法的手写数字字符识别》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、电子测量技术第30卷第2期研究设计ELECTRONICMEASUREMENTTECHNOLOGY2007年2月基于Dirichlet分布的贝叶斯分类算法的手写数字字符识别应晓槟吴炜滕奇志杨晓敏朱强军(四川大学电子信息学院图像信息研究所成都610064)摘要:贝叶斯分类器是一种基于概率统计的常用分类器。本文在原有的贝叶斯分类的基础上进行了改进,提出了一种基于Dirichlet分布的贝叶斯分类模型,对手写数字字符进行识别的算法。该算法用模板法进行提取特征,这种方法更易操作,提取特征的效果也好。实验表明,用
2、贝叶斯分类方法比传统的Fisher分类算法能更好地对手写数字字符进行分类识别,且在众多领域中有较大的应用价值。关键词:贝叶斯分类器;共轭Dirichlet分布;增量学习中图分类号:TP391141文献标识码:AHandwrittendigitalrecognitionbasedonDirichletdistributionandBayesianclassifierYingXiaobingWuWeiTengQizhiYangXiaominZhuQiangjun(SichuanUniversityElec
3、tronicInformationEngineeringImageInformationInstitute,Chengdu610064)Abstract:TheBayesianclassifierwhichisbasedonprobabilitystatisticisacommonlyusedclassification.ThispaperintroducesaBayesianclassifyingmodelbasedontheDirichletpriordistributionwhichisimpr
4、ovedbyexistedBayesianmodeltorecognizehandwrittennumbers.Thearithmeticusestemplatemethodtoextractfeature,makingoperationmoreeasilyandresultofextractedfeaturebetter.ExperimentalresultsshowthatthearithmeticisbetterthantraditionalFisherclassifyingarithmetic
5、torecognizehandwrittennumbers.Ithasbeenusedsuccessfullyinmanyfields.Keywords:Bayesianclassifier;conjugateDirichletdistribution;incrementallearningcount(Aj=aj
6、c=ci)0引言P(Aj=aj
7、c=ci)=count(c=c(2)j)式中:Aj是实例的属性;aj是属性的离散值。在过去的30年里手写数字识别一直是图像处理、模[7][1]最大似然估计是以
8、样本的信息来估计参数的信息,式识别领域的研究热点。手写数字字符的识别是一个而忽略了先验信息的影响,而贝叶斯估计与其最大的区别很活跃的研究领域,但这里面临着许多难题,由于文化背就是把θ作为随机变量,而引入先验信息。在贝叶斯估计景和知识结构的不同,手写的字体和结构也有极大的差[2]中,先验概率P(θ
9、I0)是已知的,它可以来自于已观测到的别,这就增加了识别的难度。手写数字识别已有了很多[3][4]数据信息,也可以来自一些分布假设等。研究,有模糊逻辑的方法、神经网络方法、粗糙集方[5][6]1.2共轭Dir
10、ichlet分布下的参数估计法、机构分类方法等。根据后验信息是根据样本信息和先验信息得出,于是本文提出了一种基于Dirichlet分布的贝叶斯分类方后验信息可以得到如下估计:法对手写数字字符进行识别。P(S
11、θ,I0)P(θ
12、I0)P(θ
13、S,I0)==1贝叶斯估计P(S
14、I0)P(S
15、θ,I0)P(θ
16、I0)(3)1.1传统参数估计与贝叶斯估计的区别P(S
17、θ,I0)P(θ
18、I0)dθ传统参数估计一般采用最大似然估计的方法来估计∫均值:从式(3)可知,由于新样本的加入,使得先验信息由P(θ
19、coun
20、t(c=ci)I0)变为了P(θ
21、S,I0).θi=P(c=ci)=(1)Total(c)定义1设样本S对参数θ的条件分布为P(S
22、θ,I0),式中:c为类别空间。先验分布为π(θ).如果由π(θ)和样本S决定的后验概率分·81·第30卷电子测量技术P(S
23、θ)π(θ)1+60布P(θ
24、S,I0)=与π(θ)是同一类型的分布,则≈0.598(因为均匀分布1是表示αi=1,2时表示α=P(S)2+100称π(θ)为共轭分布。α1+α2)。显然第二种方法更合