资源描述:
《一种基于支持向量机的手写汉字识别方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第5期电 子 学 报Vol.30No.52002年5月ACTAELECTRONICASINICAMay2002一种基于支持向量机的手写汉字识别方法1112高 学,金连文,尹俊勋,黄建成(11华南理工大学电子与通信工程系,广东广州510641;21MotorolaChinaResearchCenter,上海200002) 摘 要:本文提出了一种新的基于支持向量机手写汉字识别方法.支持向量机作为一种新的机器学习方法,由于其建立在结构风险最小化准则之上,而不是仅仅使经验风险达到最小,从而使得支持向量分类器具有较好的推广能力.本文
2、首先讨论了支持向量机的基本原理,然后,针对支持向量机识别大类别手写汉字所遇到的特殊问题,文章进行了分析和阐述,并在此基础上,提出了基于最小距离分类器预分类的两级分类策略.最后,针对GB2312280的1034个汉字类别的120套手写样本,进行了实验仿真.实验结果表明,本文方法的汉字识别率较距离分类器有较大提高,其中多项式核函数的支持向量分类器,识别率平均提高3138%,表明了本文方法的有效性.关键词:支持向量机;手写汉字识别;特征提取中图分类号:TP391文献标识码:A文章编号:037222112(2002)0520651204A
3、NewSVM2BasedHandwrittenChineseCharacterRecognitionMethod1112GAOXue,JINLian2wen,YINJun2xun,HUANGJian2cheng(11Dept.ofElectronicsandCommunicationEngineering,SouthChinaUniversityofTechnology,Guangzhou,Guangdong51064,China;21MotorolaChinaResearchCenter,Shanghai200002,China
4、)Abstract:AnewrecognitionmethodofhandwrittenChinesecharactersbysupportvectormachineispresented.Supportvectormachines(SVM)operateontheprincipleofstructureriskminimizationwhichnotonlykeepstheempiricalriskminimalbutalsocon2trolsVCconfidenceofdiscriminantfunctions,henceab
5、ettergeneralizationabilityisguaranteed.Inthispaper,theproblemstobesolvedwhileapplyingSVMinChinesecharacterrecognitionareaddressedatfirst,andthenatwostageofrecognitionschemeissug2gested.Finally,experimentalresultson1034categoriesofChinesecharacterfrom120setsofsamplesar
6、egiven.ForthePolynomialkernelSVM,a3138%averageincrementofrecognitionrateisobtainedshowingtheefficiencyoftheproposedapproach.Keywords:supportvectormachines;handwrittenChinesecharacterrecognition;featureextraction1 引言人满意.神经网络由于其较强的曲线拟合和模式分类能力,在 汉字识别一直是模式识别最重要的研究领域之一.经过
7、汉字识别中得到广泛的应用.但是,神经网络方法也有其缺多年的研究,已经取得了大量成果[1~3].但是,无约束的非特点,比如网络结构的确定尚无可靠的规则,算法的收敛速度较定人手写汉字识别仍然被认为是文字识别领域最困难的问题慢,且无法保证收敛到全局最有点.本文提出了一种新的基于之一,其原因可以归结为:(1)汉字规模大(2)相似汉字较多,支持向量机的手写汉字两级分类策略,即采用最小距离分类且有些相似字差别极其细微(3)存在大量的不规则书写变形.器进行预分类,然后,应用支持向量机较强的泛化能力对候选由于(2)、(3)的存在,导致手写汉字,特
8、别是相似字在特征空字集进行细分类,取得了较好的效果.支持向量机是AT&T间中的距离变小,使得普通的距离分类器的推广能力变弱.因Bell实验室的V.Vapnik等人根据统计学习理论提出的一种新此,如何补偿手写汉字的书写变形,提高分类器的泛化和推广的机