欢迎来到天天文库
浏览记录
ID:5930148
大小:33.00 KB
页数:11页
时间:2017-12-29
《一种改进脱机手写汉字四角特征粗分类方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一种改进脱机手写汉字四角特征粗分类方法 【摘要】将粗分类应用于脱机手写汉字识别中,采用这种多层次分类策略,能有效地改善识别的性能,提高识别精度。本文提出了一种利用四角区域结构特征对手写汉字进行粗分类的方法。在对汉字基本笔画进行分析的基础之上,根据手写汉字形变的特点以及识别算法的要求,定义一组新的笔画单元,并将这些笔画单元与汉字特定区域内的结构进行比对,得到一组4位结构特征编码,以此作为脱机手写汉字粗分类的依据。对GB2312一级字库中的部分手写汉字进行采样和识别实验,结果证明改进的四角结构特征用于粗分类的有效性。【关键词】手写汉字识别;粗分类;结构特征1引言11我国汉字数
2、量非常庞大,约10万字左右,仅GB2312中规定的一级常用汉字就有3755个。针对如此大规模的字符集,若采用直接识别,会极大地降低识别速度。通过加入一级或多级粗分类,缩小待识别汉字范围,减少细识别复杂度,是一种提高系统效率的有效方法。刘峡壁和贾云得使用笔段中心点法对汉字进行粗分类,将汉字分解为横、竖、撇、捺4种类型笔段,将每个笔段中心点的坐标和相同类型笔段的数量作为分类特征。该方法表达了手写体汉字中基元的形状、位置、大小以及相互关系的模糊性,可同时用于联机和脱机手写体汉字识别,有很好的分类效果。这说明利用结构特征进行汉字粗分类是有效可行的。但是,由于汉字结构复杂,不同的书写
3、习惯以及书写时受到的干扰都会造成汉字的形变,形成不可计数的书写风格,这使得脱机手写汉字识别中整体结构特征的提取方法复杂且极不稳定。而汉字外围结构不仅包含了丰富的信息,并且,在汉字整体结构变化较大的情况下,外围结构信息也能保持相对稳定和完整。Hahn-MingLee等提出一种将统计特征和外围结构特征相结合的方法,使用模糊集理论提取特征并使用SEART神经网络作为分类器以减小汉字形变的影响。Yiu-ManTham等使用一种基于四角号码的粗分类方法,提取四角笔画特征产生多组特征号码进行分类,当分类错误时,利用反馈机制产生一组新的特征号码,以此提高对手写汉字结构变化的适应性。11本
4、文在文献[3]的基础上,改进特征基元的选取和提取方法,提出一种基于手写汉字四角结构特征的粗分类方法。选取汉字结构中几种不易受形变影响的简单结构作为特征结构基元,每个基元与一个十进制数值相对应。对待分类汉字外围四角区域内的特征笔画分别提取笔画属性,使之与特征基元进行匹配,形成一个4位特征编码,将此编码作为粗分类依据。2四角笔画特征Yiu-ManTham等定义了9种笔画基元类型,将他们与汉字特定区域内的笔画结构进行匹配,以匹配结果作为粗分类特征。这9种类型包括了单笔基元和组合基元两部分,这与传统的四角号码特征基元有相似之处。本文延续文献[3]的思想,以传统四角号码特征基元作为基
5、础,结合手写汉字结构和图像识别特点,对用作粗分类的笔画基元作一步改进。利用传统四角号码特征基元和文献[2]中笔画类型对汉字图像进行笔画提取实验,出现几种问题。(1)单笔笔画之间的区别特征易受手写汉字形变影响,造成基元之间的识别错误,如图1所示,由于两个“心”字左边第一笔长度差异较大,在原有四角号码特征基元中,无法区分属于点还是撇。(2)组合笔画内部各个小部件之间相互独立,计算机无法识别为整体,当确定某一部件后,容易错找或遗失其它部件,从而识别错误。如图2中,“学”字上部整体属于原特征笔画的“小”结构,但三个子部件并无交集且距离较远,提取和识别较困难。11通过对大量样张的观察
6、和研究发现,尽管手写汉字形变多样,但有3种笔画结构特征相对稳定:拐点,交叉点和方向。所以,在基本汉字笔画、原有四角基元和文献[3]中笔画类型的基础之上,舍弃组合基元及长度的判断,以上述三种特征为主要判断依据,划分为7种既便于抽取又具有典型意义的笔画基元,2四角特征提取2.1四角特征提取算法进行特征提取之前,首先对汉字图像进行二值化、细化等预处理。汉字笔画由一定数量的笔画点组成。将汉字的笔画点定义为4种:(1)端点,笔画的起点和终点;(2)叉点,分为交叉点和三叉点(3)折点;(4)过渡点,即以上三种笔画点之间的连接点。特征提取算法步骤为:(1)由四个角开始分别以225°、31
7、5°、135°、45°向图像中心逐行扫描,如图6所示。当得到第一个黑色像素点时停止扫描,此像素点所在的笔画即为汉字在该角的特征笔画。(2)利用如图7所示八邻域模板实现对特征笔画的追踪和记录。当找到黑色像素点并将其所在的笔画确定为特征笔画,之后,从此点开始向上或向下寻找特征笔画端点。模板中P为当前像素点,P[0]~P[7]分别代表模板中对应位置的像素点,sum为P[0]~P[7]黑色像素点的个数和。11判定规则如下:sum=1,中心点P为特征笔画端点。若找到的是第一个端点,开始记录笔画点轨迹,若找到的是第二个端点,说
此文档下载收益归作者所有