欢迎来到天天文库
浏览记录
ID:48119044
大小:546.81 KB
页数:18页
时间:2019-05-07
《基于多特征提取的中文识别算法论文演示--历年数学建模优秀论文大全.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、基于多特征提取的中文识别算法姓名:刘平净学号:20031711指导教师:何光辉老师专业:信息与计算科学基于多特征提取的中文识别算法课题研究意义基于多特征提取的识别算法原理算法实现流程结果分析课题研究的意义随着计算机技术的发展和普及,传统的汉字编码输入方案已经不能满足大众化的需求,汉字输入成为我国计算机科学发展的瓶颈问题,而手写汉字识别技术是解决这一问题的关键.现在生产的电子产品已经日趋智能化,如手机、PDA等,手写汉字识别技术在这些产品中的应用越来越多,由于硬件资源的限制,电子厂商迫切需要一个简单易行而效果也能满足要求
2、的识别算法。基于多特征提取的识别算法原理算法原理综述汉字是一种结构文字,所以在进行手写汉字识别时,笔划信息一定要充分利用起来,同时我们知道,单纯的笔划特征不足以区分所有汉字,现在我们考虑将输入汉字图象分别从笔划和相素角度做两次分类识别,以下分别称为粗分类和细分类。在粗分类阶段,我们先根据基于笔划的识别算法把范围缩小,即根据笔划数和笔划顺序从字库选出几个可能的汉字,至于怎样从这几个汉字中找出正确的对应字符就由细分类部分完成。基于多特征提取的识别算法原理(续)在细分类阶段,可以根据网格划分的算法对粗分类后的若干汉字进行识别
3、,由于范围已经很小,所以该步骤不需要划分太细,通常情况下做3*3分区即可取得理想结果。注意,用该方法要对汉字图象做规范化处理,我们可以稍做改进,把每区的黑色相素点数改为此数与汉字总相素点数的比值,这样就可以排除汉字大小不一的干扰。基于多特征提取的识别算法原理(续)预处理由于下一步进行的粗分类要以笔划为特征,所以在预处理阶段要完成消除噪声点以便判断笔划的工作,具体来讲主要完成以下工作:(1)从输入图像得到点序列。(2)为了消除起笔和落笔抖动,删除点序列两端的若干点,消除点序列中间的异常点。(3)记录图像的最大、最小x,y
4、坐标,以便在细分类时使用。基于多特征提取的识别算法原理(续)粗分类在介绍粗分类要完成的工作前,先要了解该算法对笔划的分类和笔划相似度的定义。下图是二维平面上方向笔划的义。笔划的划分:横,用数字1标识,方向为1;竖,用数字2标识,方向为3;撇,用数字3标识,方向为4;捺,用数字4标识,方向为2;折,用数字5标识,有至少两个方向;基于多特征提取的识别算法原理(续)为了知道输入的一笔是哪种笔划,还要从点序列入手求每一点的方向码,然后消除噪声方向得到笔划码。下面这组式子用来求的方向数。若point[a+2].y=point[a
5、].y且point[a+2].x>point[a].x,方向1。若point[a+2].y=point[a].y且point[a+2].xpoint[a].y,方向3。若point[a+2].x=point[a].x且point[a+2].ypoint[a].x且point[a+2].y>point[a].y,方向2。若point[a+2].x>poin
6、t[a].x且point[a+2].ypoint[a].y,方向4。若point[a+2].x7、粗分类后,要对汉字图像进行细分类进行匹配识别,该过程采用划分网格的方法,由于粗分类阶段已经将范围缩小,所以该阶段只需采用3*3网格即可.细分类该阶段首先对汉字图像进行划分,统计各区相素点数,为了归一化,还要计算出各区相素点与图像总相素点数的比值,如下图:0000106231114948200000.1690.150.3680.180.13基于多特征提取的识别算法原理(续)现在把上图的统计特征表示为一个数组记为test.p[9],若字库中第i组特征为tez[i].p[9],则待识别汉字图象与字库里第个字的距离为:为了便于8、识别,需要定义阈值dis,若d
7、粗分类后,要对汉字图像进行细分类进行匹配识别,该过程采用划分网格的方法,由于粗分类阶段已经将范围缩小,所以该阶段只需采用3*3网格即可.细分类该阶段首先对汉字图像进行划分,统计各区相素点数,为了归一化,还要计算出各区相素点与图像总相素点数的比值,如下图:0000106231114948200000.1690.150.3680.180.13基于多特征提取的识别算法原理(续)现在把上图的统计特征表示为一个数组记为test.p[9],若字库中第i组特征为tez[i].p[9],则待识别汉字图象与字库里第个字的距离为:为了便于
8、识别,需要定义阈值dis,若d
此文档下载收益归作者所有