有关svm在脱机手写汉字识别中的应用

有关svm在脱机手写汉字识别中的应用

ID:21826922

大小:57.00 KB

页数:6页

时间:2018-10-25

有关svm在脱机手写汉字识别中的应用_第1页
有关svm在脱机手写汉字识别中的应用_第2页
有关svm在脱机手写汉字识别中的应用_第3页
有关svm在脱机手写汉字识别中的应用_第4页
有关svm在脱机手写汉字识别中的应用_第5页
资源描述:

《有关svm在脱机手写汉字识别中的应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、有关SVM在脱机手写汉字识别中的应用SVM在脱机手写汉字识别中的应用童学锋,朱俊(同济大学计算机科学和工程系,上海200092)为了对手写体汉字进行快速正确的识别,本文应用SVM和三种特征识别汉字。经过实验,它的处理速度和识别率都令人满足,假如组合成多分类器可以得到更高的识别率。关键词手写体文字识别SVM多分类器1.引言汉字是非字母化的文字,在当今高度信息化的社会里,如何快速高效地将汉字输进计算机,已成为影响人机接口效率的一个重要瓶颈,也关系到计算性能否真正在我国得到普及应用。因此,进行汉字识别的探究和开发,使汉字输进自动化,具有广泛的应用

2、远景和重大的经济价值。汉字识别技术可分为印刷体汉字识别和手写体汉字识别两大类,后者又可分为联机(on-line)手写汉字识别和脱机(off-line)手写汉字识别。其中又以脱机手写汉字识别最为困难。变形大:印刷体汉字有宋体、楷体、黑体、仿宋体、圆体等字体,手写体汉字更是因人而异,一人一个写法,而且同一个人在不同的时间书写的汉字也不尽相同相似字:人、进;已、己等等。2.算法SVM(SupportVectorMachine)或称支撑向量机是在统计学习理论基础上发展起来的一种新的通用的模式识别方法。本文提出的采用基于SVM的分类决策方法,在小字符

3、集脱机手写体汉字识别新题目中,取得了较好的效果。SVM算法的基本思想是根据Vapnik提出的结构风险最小化(StructureRiskMinimization)原理,通过最大化分类间隔或边沿(Margin)尽量进步学习机的泛化(Generalization)性能。下面对SVM算法做一扼要先容。2.1最优分类面设线性可分样本集(Xi,Yi),i=1,…,n,X∈Rd,Y∈{1,-1}是种别标号。D维空间中线性判别函数一般形式为g(X)=soNormalstyle="MARGIN:0cm0cm0pt;TEXT-INDENT:20.5pt;mso

4、-char-indent-count:1.71">Yi[(soNormalstyle="MARGIN:0cm0cm0pt">满足上述条件且使‖soNormalstyle="MARGIN:0cm0cm0pt;TEXT-INDENT:20.5pt;mso-char-indent-count:1.71">其中分类间隔最大的超平面称为最优分类面。它通过选择练习一组称为支持向量(SupportVectors)的特征子集,使得对支持向量集的线性划分等价于对整个数据集的分割,实现了在保证分类精度的同时降低运算的复杂度。简单地说,支撑向量就是支撑最优分类面

5、的向量。3.特征提取为了增大各样本之间的区分性。采用三种方法提取特征。即外围轮廓法、投影法(笔划密度特征)和X格点阵法。每个汉字样本在特征提取以前先进行预处理,包括位置回一化、大小回一化和细化。3.1外围轮廓特征针对规格为24x24的二值图像汉字样本,按先后顺序从左、右、上、下四边分别向右、作、下、上四个方向扫描,直至扫描线碰到汉字象素点或和扫描线垂直的中轴,记下各自扫描线走过的间隔,即为该汉字样本的外围轮廓特征。显然,是一24x4=96维的特征。之所以,扫描到中轴就停止,而不是扫描到底,是由于这样可以防止冗余信息。3.2投影特征(笔划密度

6、特征)针对规格为24x24的二值图像汉字样本,按先后顺序从左、上两边分别向右、下两个方向扫描,记下扫描线所穿过的汉字笔划数,即为该汉字的投影特征。这是一个24x2=48维的特征。优字的垂直投影和水平投影分别如图所示:图1垂直投影图2水平投影3.3X格点阵特征针对规格为24x24的二值图像汉字样本,把汉字分成均匀的X格,比如2x2,4x4等,然后计算X格中汉字象素点的个数,即为该汉字样本的X格点阵特征。统计时,按从左至右、从上到下的顺序进行。假如X格是2x2的,则该特征有24x24/2/2=144维。4.实验结果和分析4.1实验参数和结果本文

7、选用的试验数据为同济大学教务处手写体成绩识别系统中经过二值化和往噪等预处理后的中文字符图像数据,包括“优”,“良”,“中”,“及”,“格”,“不”6种汉字。下图为部分汉字样本的图像。汉字特征外围轮廓投影X格点阵优97.997.598.6良97.192.598.0中99.799.099.0不10097.2100及89.085.889.0格95.8%94.096.3总体96.494.296.74.2多分类器将这三个分类器通过简单投票法组合成多分类器,即有两个或两个以上的分类器作出决策A,则以为决策A正当,若每个分类器作出的决策不同,则选择识别率

8、较高的分类器的决策。这样得到的组合分类器的识别率在97.7以上,识别率进步了1以上。从概率上分析,假设分类器A正确率96、分类器B正确率94和分类器C正确率97,三者组合识别率应

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。