欢迎来到天天文库
浏览记录
ID:38183557
大小:42.00 KB
页数:4页
时间:2019-05-24
《脱机手写汉字识别应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、SVM在脱机手写汉字识别中的应用为了对手写体汉字进行快速准确的识别,本文应用SVM和三种特征识别汉字。经过实验,它的处理速度和识别率都令人满意,如果组合成多分类器可以得到更高的识别率。1. 引言汉字是非字母化的文字,在当今高度信息化的社会里,如何快速高效地将汉字输入计算机,已成为影响人机接口效率的一个重要瓶颈,也关系到计算机能否真正在我国得到普及应用。因此,进行汉字识别的研究与开发,使汉字输入自动化,具有广泛的应用前景和重大的经济价值。汉字识别技术可分为印刷体汉字识别和手写体汉字识别两大类,后者又可分为联机(on-li
2、ne)手写汉字识别和脱机(off-line)手写汉字识别。其中又以脱机手写汉字识别最为困难。主要表现在:·数量多:由于汉字数量众多,一级汉字有3755个,二级汉字有6763个。汉字识别问题属于超多类模式集合的分类问题·变形大:印刷体汉字有宋体、楷体、黑体、仿宋体、圆体等字体,手写体汉字更是因人而异,一人一个写法,而且同一个人在不同的时间书写的汉字也不尽相同·相似字:人、入;已、己等等。2. 算法SVM(SupportVectorMachine)或称支撑向量机是在统计学习理论基础上发展起来的一种新的通用的模式识别方法。本
3、文提出的采用基于SVM的分类决策方法,在小字符集脱机手写体汉字识别问题中,取得了较好的效果。SVM算法的基本思想是根据Vapnik提出的结构风险最小化(StructureRiskMinimization)原理,通过最大化分类间隔或边缘(Margin)尽量提高学习机的泛化(Generalization)性能。下面对SVM算法做一简要介绍。2.1最优分类面设线性可分样本集(Xi,Yi),i=1,…,n,X∈Rd,Y∈{+1,-1}是类别标号。D维空间中线性判别函数一般形式为g(X)=W·X+b,分类面方程为:W·X+b=0
4、,将判别函数归一化,使得两类所有样本都满足
5、g(X)
6、≥1,即使离分类面最近的样本的
7、g(X)
8、=1,这样分类间隔就等于2/‖W‖,因此使间隔最大最大等价于‖W‖(或‖W‖2)最小;而要求分类线对所有样本正确分类,要求满足Yi[(W·Xi)+b]-1≥0,i=1,2,…,n。满足上述条件且使‖W‖2最小的分类面就是最优分类面,过两类样本中离分类面最近的点且平行于最优分类面上超平面H1、H2上的训练样本就是上式中使等号成立的样本,称为支撑向量(SupportVectors)。因为他们支撑起了最优分类面。其中分类间隔最大的
9、超平面称为最优分类面。它通过选择训练一组称为支持向量(SupportVectors)的特征子集,使得对支持向量集的线性划分等价于对整个数据集的分割,实现了在保证分类精度的同时降低运算的复杂度。简单地说,支撑向量就是支撑最优分类面的向量。当问题线性不可分时,通过非线性变换到高维空间中的线性问题。非坐标变换,而只改变内积的定义,避免了维数灾难。3. 特征提取为了增大各样本之间的区分性。采用三种方法提取特征。即外围轮廓法、投影法(笔划密度特征)和网格点阵法。每个汉字样本在特征提取以前先进行预处理,包括位置归一化、大小归一化和
10、细化。3.1外围轮廓特征针对规格为24x24的二值图像汉字样本,按先后顺序从左、右、上、下四边分别向右、作、下、上四个方向扫描,直至扫描线遇到汉字象素点或与扫描线垂直的中轴,记下各自扫描线走过的距离,即为该汉字样本的外围轮廓特征。显然,是一24x4=96维的特征。之所以,扫描到中轴就停止,而不是扫描到底,是因为这样可以防止冗余信息。3.2投影特征(笔划密度特征)针对规格为24x24的二值图像汉字样本,按先后顺序从左、上两边分别向右、下两个方向扫描,记下扫描线所穿过的汉字笔划数,即为该汉字的投影特征。这是一个24x2=4
11、8维的特征。优字的垂直投影和水平投影分别如图所示: 图1垂直投影 图2水平投影3.3网格点阵特征针对规格为24x24的二值图像汉字样本,把汉字分成均匀的网格,比如2x2,4x4等,然后计算网格中汉字象素点的个数,即为该汉字样本的网格点阵特征。统计时,按从左至右、从上到下的顺序进行。如果网格是2x2的,则该特征有24x24/2/2=144维。4.实验结果和分析4.1实验参数和结果本文选用的试验数据为同济大学教务处手写体成绩识别系统中经过二值化和去噪等预处理后的中文字符图像数据,包括“优”,“良”,“中”,“及”,“格”
12、,“不”6种汉字。下图为部分汉字样本的图像:应用SVM方法,核函数选择RBF径向基函数,选择不同的特征和参数,训练集6类汉字共1562个。各种特征最优的实验结果如下: 汉字特征外围轮廓投影网格点阵优97.9%97.5%98.6%良97.1%92.5%98.0%中99.7%99.0%99.0%不100%97.2%100%及89.
此文档下载收益归作者所有