欢迎来到天天文库
浏览记录
ID:43876861
大小:772.71 KB
页数:59页
时间:2019-10-16
《脱机汉字识别的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、目录摘要11.导言22.新的特征优劣量度标准23.噪声去除44.归一化预处理64.1.细化64.2.提取轮廓84.3.弹性网格94.3.1.矩形弹性网格94.3.2.扇形弹性网格124.4.改进的弹性网格145.汉字特征145.1.方向分解145.1.1.合取方向分解155.1.2.析取方向分解165.1.3.方向长度分解175.1.4.边缘检测分解195.1.4.1.Prewitt边缘算子205.1.4.2.Sobel边缘算子215.1.4.3.Kirsch边缘算子225.1.5.边缘梯度方向角分解235.1.5.1.
2、Prewitt边缘梯度方向角分解245.1.5.2.Sobel边缘梯度方向角分解255.1.6.汉字特征的实验比较分析及改进265.2.Gabor方向分解365.3.黑像素分布特征385.4.不变矩特征385.4.1.Hu不变矩395.4.2.仿射不变矩395.4.3.不变矩实验416.分类器设计446.1.模板分类器456.2.神经网络一BP网络分类器及改进476.3.神经网络一一LVQ网络分类器526.4.隐马尔可夫过程分类器537.总结55参考文献56毕业论文(设计)任务书58毕业论文(设计)考核表59脱机汉字识别
3、的研究郑志洵导师:杨建刚浙江大学计莫机科学与技术系摘要:本文提出了一种独立于分类器的特征优劣量度标准一一类间类内方差比,用其比较了用不同方法提取出的汉字特征的优劣,并改进了预处理和特征提取的方法,取得了更好的效果。对各种分类器用于汉字特征的分类识别做了实验比较,改进了BP神经网络分类器的结构,使其对类似汉字识别的超多类别分类有较好的效果。最后得到了一套可行的脱机汉字识別方案。关键词:脱机汉字识别特征提取分类器Abstract:Thispaperproposesaclassifier-irrelevantfeatureme
4、asure,whichisusedtocomparethediversefeatureofChinesecharacterextractedbydifferentmethods.Amelioratedmethodisproposedinpre-processingandfeatureextractionwithimprovedefficiency.VariousclassifiersusedinChinesecharacterrecognitionarecomparedbyexperiments.Improvements
5、arealsomadetotheBPneuralnetworkclassifierforabettersolutionintheissueofcategorizationofexcessiveclasseswhendealingwithChinesecharacterrecognition.Intheend,thispapercomestoanapplicableschemeofofflineChinesecharacterrecognition.Keywords:OfflineChinesecharacterrecog
6、nition,Featureextraction,Classifier1.导言在社会信息化的今天,大量的信息使用了计算机來存储、处理和传输。将纸质媒介上的信息输入计算机,最简便的方法就是使用扫描仪。但是,担描进计算机的是图像,图像占用的空间大,而且查找、修改等处理都非常不便,传输也要花费人量的时间,没有体现出计算机强人的信息处理能力,因此有必要将图像中的汉字识别出来,用内码存储,这样对信息的各种处理都会非常方便,而且能节省大量的资源,包插存储空间和传输时间。让计算机口动地从图像中识别出汉字,就是木文研究的脱机汉字识别方法
7、。汉字识别是模式识别的一个应用。汉字识别可分为联机汉字识别和脱机汉字识别两类。联机汉字识别,是把汉字写在一种叫手写版的设备上,由它将按时间采样的坐标序列输入计算机,再由计算机识别出汉字。脱机汉字识别,是把扫描入计算机的图像中的汉字识别出来,转换成汉字内码。联机汉字识别,因为其直接得到汉字的笔划顺序、方向以及提笔、落笔等信息,较脱机汉字识别更容易获得汉字结构,也就是说脱机汉字识别难度更大。脱机汉字识别的一般过程是,将扫描入计算机的汉字图像经去噪、行字切割、归一化等预处理后,对每个单字图像提取其特征,然后根据特征使用分类器对
8、具识别,得到的类别就是识别结果,可进一步对其进行基于上下文语法的后处理,降低误识率。本文尝试探讨汉字图像去噪方法、各种特征提取方法以及不同分类器的优劣,并尝试找岀一整套可行的汉字识别方案。本文没有涉及汉字行字切割和基于语法的后处理。本文处理的是二值化片的单字的图像,0代表白像素,1代表黑像索。2.新的特征优劣量度标准
此文档下载收益归作者所有