欢迎来到天天文库
浏览记录
ID:39724761
大小:538.50 KB
页数:33页
时间:2019-07-10
《智能信息处理文字识别联机识别and脱机识别》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、智能信息处理第3章文字识别技术3.1-3.3张宝健3.1文字识别系统3.2脱机文字识别3.3联机文字识别第3章文字识别技术3.1-3.33.1文字识别系统主要介绍模式识别中的文字识别的原理对分类器的具体实现做了详细剖析列举常见的文字识别方法对于文字识别的前景与挑战的分析第3章文字识别技术3.1-3.3文字是人类相互交流信息的重要工具。社会发展进入信息时代,人们已经不再停留在自己的耳朵和眼睛去直接获得这些信息,而是使用计算机将文字自动的输入计算机,用计算机对他们进行处理,随时以各种方式满足人们的不同需要。因此,研究如何用计算机自动识别文字图像,解决文字自动输入计
2、算机,并进行高速加工处理的问题已引起大家的关注。通俗的说,文字识别就是由计算机自动识别各种字符,如字母、数字、汉字或其他语言中的字符。文字识别有如下分类:根据识别对象的不同,文字识别可分为西文识别、数字识别和汉字识别等。这些字符可以是手写体和印刷体,因此文字识别又可分为手写体文字识别和印刷体文字识别。根据采用的输入设备不同,文字识别可分为联机识别和脱机识别。其中联机识别是指将字符书写在与计算机相连的书写板上,由计算机根据字符的书写轨迹进行实时识别,因此联机识别主要是针对手写体而言的;脱机识别是指将字符书写或打印在纸张上,用扫描仪或其他光电转换装置将其转换成电信
3、号输入到计算机中,再由机器进行识别。因此,脱机识别又称为光学文字识别,即我们通常所说的OCR(OpticalCharacterRecognition)。限制性(Constrainted)和非限制性(Unconstrained)手写体字符识别(或称自由手写体字符识别)。无论是联机还是脱机手写体字符识别,都经历了一个由限制性识别到非限制性识别的过程。目前,人类所使用的各种文字,绝大多数都只包含很小的字符集。如英文字符集由26个字母组成,俄文由32个字母组成,这些字母及其变化的不同组合构成了具有不同含义的文字,是这类文字的基本组成部分。对于小类别数的字符集,如阿拉伯
4、数字,手写体识别已经可以做到对书写者不加任何限制。但对于大类别数的字符集,如汉字,还必须对书写者施加某些限制,以保证较高的识别率。未来随着技术的发展,将逐步放松限制,最终可以达到最自由手写体文本的识别。文字识别系统的原理及组成文字识别属于模式识别的范畴,模式这个概念的内涵是很丰富的。“我们把凡是人类能用其感官直接或间接接受的外界信息都称为模式”。比如:文字、图片、景物、声音、语言等;模式识别的目的就是要研究出能自动进行模式分类和描述的机器系统,以完成人类的模式识别的功能。一个模式识别主要分为四个组成部分,其框图如下:数据获取:输入模式转换成适合于机器处理的形式
5、的过程。预处理的目的是去除噪声,加强有用的信息,对由输入设备或其他因素造成的退化现象进行复原,以利于特征提取经过预处理后的数据维数很高,为了有效地实现分类识别,需要对原始数据进行变换,得到最能反映原始模式本质的特征向量。把原始数据组成的空间叫做测量空间,把分类识别赖以进行的空间叫做特征空间。通过变换可以把在维数较高的测量空间中表示的模式变为在维数较低的特征空间中表示的模式,这就是特征的提取和选择。分类决策是在特征空间中用所设计的分类器把被识别对象归为某一类别。模式识别的过程具体化到文字识别系统中,则分为下面的几个过程:光电变换检测部分的主要功能,是对纸面上的文
6、字进行光电转换,然后经模数转换成具有一定灰度的数字信号,送往其后的各部分进行处理和识别。常用的检测设备是扫描仪,摄像头等。灰度:灰度使用黑色调表示物体。每个灰度对象都具有从0%(白色)到100%(黑色)的亮度值。文字图像分割的目的就是根据文字图像的特征实现文字图像区域的定位和分割,将真正的文字图形分割出来,以便后续进行识别。识别预处理部分的功能是将已分割出的文字图形信息加以区分,去除信号中的污点、空白等噪声,增强文字图像的信息。并根据一定的准则除掉一些非本质信号,对文字的大小、位置和笔画粗细等进行规范化,以便简化判断部分的复杂性。特征提取部分是从整形和规范化的
7、信号中抽取反映字符本身的有用信息,供识别部分进行识别。作为特征提取的内容是比较多的,可以是几何特征,如文字线条的端点、折点和交点等。识别判断部分则是根据抽取的特征,运用一定的识别原理,对文字进行分类,确定其属性,达到识别的目的,实际上判断部分就是一个分类器。·这边东西有点多,到word里边去看脱机识别概述由于有些场合,不能采用书写板等专用的输入设备输入文字,或文字信息已经存在,如果要利用计算机进行文字识别,就只能进行脱机识别。OCR概念OCR技术是光学字符识别(OpticalCharacterRecognition)的缩写,是通过扫描等光学输入方式将各种票据、
8、报刊、书籍、文稿及其它印刷品的文字转化
此文档下载收益归作者所有