欢迎来到天天文库
浏览记录
ID:34602469
大小:68.30 KB
页数:4页
时间:2019-03-08
《细化手写体算法的应用与改进》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、细化手写体算法的应用与改进朱俊学号0220080198摘要为了对手写体汉字进行快速准确的识别,本文提出了改进的基于索引表的细化算法。经过实验对比,它的处理速度和细化质量优于其他一些常见算法,取得了较好的识别效果。关键词细化识别索引表1.引言在自动文字识别系统中,采用细化方法计算图像的骨架是一个十分重要的预处理步骤。因为骨架包含了文字图像特征的最有效数字化信息,能对文字图像进行有效地描述。因此对于细化,一方面要求去除多余的象素,一方面又要保留模式的基本结构和特征。Pavlidis给出的骨架标准化的定义如下:“令R表示一个平面多边形区域内点的集合,GR表示其边界边的集合,
2、P是R内任意一点,M表示GR上到P距离最近的点,即对于"TÎGR,总存在
3、PM
4、£
5、PT
6、。如果在GR上存在到P距离最近的点数多于一个,即
7、{M
8、
9、PM
10、£
11、PT
12、,"TÎGR,MÎGR}
13、>1,则称P为平面多边形区域R的一个骨架点。所有骨架点的集合就称为这个平面多边形区域R的骨架”。迄今为止,已有很多细化算法产生,大致可归纳为迭代算法和非迭代算法两大类。这些算法的共同缺点是:(l)大多数算法不考虑原型模式中的中心轴,细化后有较大的畸形产生;(2)只适用于信息量较少的汉字。为了解决上述几个问题,提出了改进的基于索引表的细化算法。2.算法与改进经过预处理,待细化的图像是
14、0、1二值图像。象素值为1的是需要细化的部分,象素值为0的是背景区域。基于索引表的算法就是根据一定的判断依据,做出一张表,然后根据某个要细化的点八个相邻点的情况查表,若表中元素是1,则删除该点(改为背景),若是0则保留。因为一个象素的八个邻域共有28=256种可能情况,因此,索引表的大小一般也为256。举例如下:图1图1中,(1)不能删,因为它是个内部点,我们要求的是骨架,如果连内部点也删了,骨架也会被掏空的;(2)不能删,和(1)是同样的道理;(3)可以删,这样的点不是骨架;(4)不能删,因为删掉后,原来相连的部分断开了;(5)可以删,这样的点不是骨架;(6)不能删
15、,因为它是直线的端点,如果这样的点删了,那么最后整个直线也被删了,剩不下什么;(7)不能删,因为孤立点的骨架就是它自身。总结一下,有如下的判据:(1)内部点不能删除;(2)孤立点不能删除;(3)直线端点不能删除;(4)如果P是边界点,去掉P后,如果连通分量不增加,则P可以删除。索引表就是根据这样的判断依据做成的。实际应用中,该算法还存在一些缺陷,如图2所示:图2按定义,图2经过细化后,我们预期的结果是一条水平直线,且位于该黑色矩形的中心。实际的结果确实是一条水平直线,但不是位于黑色矩形的中心,而是最下面的一条边。经过分析,之所以会这样是因为:在从上到下,从左到右的扫描
16、过程中,我们遇到的第一个黑点就是黑色矩形的左上角点,经查表,该点可以删。下一个点是它右边的点,经查表,该点也可以删,如此下去,整个一行被删了。每一行都是同样的情况,所以都被删除了。到了最后一行时,黑色矩形已经变成了一条直线,最左边的黑点不能删,因为它是直线的端点,它右边的点也不能删,因为如果删除,直线就断了,如此下去,直到最右边的点,也不能删,因为它是直线的右端点。所以最下面的一条边保住了,但这并不是我们希望的结果。解决的办法是,在每一行水平扫描的过程中,先判断每一点的左右邻居,如果都是黑点,则该点不做处理。另外,如果某个黑点被删除了,那么跳过它的右邻居,处理下一个点
17、。这样就避免了上述的问题。3.实验结果图3给出了改进的索引表细化算法和其他4种细化算法的结果图3可以看出改进的索引表算法比原始索引表算法要光滑许多,和Hilditch算法和Rosenfeld算法在肉眼上看不出有多少区别。应用于我的手写汉字识别系统,分别用不同的细化算法进行预处理并且训练。取对细化较敏感的垂直和水平投影特征,SVM训练参数相同的情况下,5种细化算法的识别率如下表所示:细化算法HilditchPavalidisRosenfeld索引表改进的索引表测试个数13871387138713871387识别个数12941267128512941306识别率93.3%
18、91.3%92.6%93.3%94.2%可以看出,改进的索引表算法相当于其他的细化算法,在识别率上面还是最优的。算法复杂性方面:由于索引表算法只是计算邻域象素,然后查表,因此时间复杂性为O(n)。4.结论本文在实际应用的背景下,针对目前细化算法存在的问题,提出了一些改进方法,并且与其他成熟的算法进行测试比较,取得了较高的识别率。虽然该算法实验效果良好,但仍需在一下方面做除改进:(l)对于笔划交点较多的汉字,该算法仍需要改进。(2)对于汉字中心轴不明显的样本,该算法的细化效果需要进一步提高。虽然本文方法是用来进行手写体文字的识别,但也可用于指纹、工程图
此文档下载收益归作者所有