基于知识库的手写体数字识别.docx

基于知识库的手写体数字识别.docx

ID:50916225

大小:219.27 KB

页数:13页

时间:2020-03-15

基于知识库的手写体数字识别.docx_第1页
基于知识库的手写体数字识别.docx_第2页
基于知识库的手写体数字识别.docx_第3页
基于知识库的手写体数字识别.docx_第4页
基于知识库的手写体数字识别.docx_第5页
资源描述:

《基于知识库的手写体数字识别.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、HUNANUNIVERSITY课程模式识别题目基于知识库的手写体数字识别学生姓名学生学号专业班级13学院名称2016年6月25日13基于知识库的手写体数字识别1案例背景:手写体数字识别是图像识别学科下的一个分支,是图像处理和模式识别研究领域的重要应用之一,并且具有很强的通用性。由于手写数字的随意性很大,如笔画粗细、字体大小、倾斜角度等因素都有可能直接影响到字符的识别准确率,所以手写体数字识别是一个很有挑战性的课题。在过去的数十年中,研究者们提出了许多识别方法,并取得了一定的成果。在大规模数据统计如例行年检、人口普查、财务、税务、邮件分拣等应用领域都有广阔的应用前景。本案例实现了手写阿拉伯数字的

2、识别过程,并对手写数字识别的基于统计的方法进行了简要介绍和分析。本文实现的手写字体识别程序具有手写数字图像读取、特征提取、数字模板特征库以及识别功能。2理论基础:2-1手写字体识别方法:手写体数字识别是一个跨学科的复杂问题,综合了图像处理、模式识别、机器学习等多个领域的知识,其识别过程一般包含图像预处理、特征提取、分类器的设定及其后处理等组成。处理流程如图2-1所示。图2-1手写体数子识别流程图2-2图像预处理手写体数字识别的首要工作是图像预处理。在图像预处理过程中需要解决的主要问题有:定位、图像二值化、平滑化(去噪)H13J、字符切分、规范化等。图像二值化是指将整个图像呈现出明显的黑白效果。

3、待识别的手写体数字图像在扫描过程中,常会带来一些噪声,用不同的扫描分辨率得到的数字图像,其质量也各不相同,故而要先将这些干扰因素排除掉。另外,还需要正确分割整幅文档图像中的手写体数字,而分割后的数字大小、字体常各不相同,故还需进行归一化处理。2-3特征提取特征提取的目的是从经过预处理后的数字图像中,提取出用以区分与其它数字类别的本质属性并数值化,形成特征矢量的过程。常见的手写体数字特征有:模板特征、统计特征、结构特征和变换特征。2-4分类器不同的分类方式对应不同的分类器,可选的分类器有神经网络、支持向量机等。利用训练出的分类器,对特征提取后的手写体数字进行分类识别。分类器的识别原理是通过其拓扑

4、结构和内置参数定义了特征空间上的一组曲面或超曲面,利用这组曲面或超曲面将特征空间划分为不同的区域,从而达到分类识别的目的。2-5算法流程首先,读入手写数字图片进行归一化处理,统一尺寸。默认为24×24图形块,并通过ostu算法进行二值化;其次,对二值化图像进行图像细化等形态学操作,并按照算法要求进行特征提取;最后,载入模板矩阵进行对比,选用欧式距离测度,得到识别结果。其算法流程如图1所示。特征提取根据手写数字图像本身的结构特征,通过计算端点、指定方向直线的交叉点个数来作为特征向量。其主要步骤如下:1.垂直交点。对细化后的手写数字图像分别在其列宽的5/12、1/2、7/12处生成垂直的三条直线,

5、提取这三条垂直直线与数字笔画的角点数并存储。2.水平交点。对细化后的手写数字图像分别在其列宽的1/3、1/2、2/3处生成水平的三条直线,提取这三条垂直直线与数字笔画的角点数并存储。3.对角交点。对细化后的手写数字图像分别提取两条对角直线,提取这两条对角直线与数字笔画的交点数并存储。由于以上步骤均作用于细化后的数字图像,其笔画简单且特征稳定,因此对其提取的基本交点及结构端点能反映数字的本质特征,可快速、有效地识别数字字符,并达到较好的识别正确率。其中,提取笔画结构端点特征的算法如下。1.目标定位。对细化后的手写数字图像按行从上到下、按列从左到右进行顺序扫描,定位选择黑像素点P作为手写笔画目标。

6、132.邻域统计。计算黑色像素P的8领域之和N,若N=1,则像素P为端点,端点计数器加1;否则舍弃该点。3.遍历图像。遍历整个图像,重复进行目标定位、领域统计的操作流程,提取端点特征。依据上述对手写数字图像的交点、端点特征提取方法,本案例中的特征向量VEC由9个分类组成,其排列如下:VEC=[垂直5/12处交点数,垂直中线交点数,垂直7/12处交点数,水平1/3处交点数,水平中线交点数,水平2/3处交点数,左对角线交点数,右对角线交点数,端点数]3模式识别本案例采用的是基于模式知识库的识别方法,所以系统调研的关键步骤就是对数字字符的结构特征的分析及其模型的构造。因此,本案例首先对0-9这10个

7、数字进行结构分析并建模,然后提取相关特征,最后构造模板库。在实验过程中,我们选择规范手写和自由手写两组样本对知识库进行参数调整,这些训练样本由200个规范手写样本和200个自由手写样本组成,通过计算样本对应分量的算术平均值获得知识库中特征向量的每个分量。通过上述步骤得到的知识库由两套模板组成,在本次实验过程中,我们选择基于模板匹配的识别方法,通过技术欧式距离来衡量匹配程度。识别系统中的特征向量包含

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。