手写文字识别技术的研究

手写文字识别技术的研究

ID:32425469

大小:29.89 KB

页数:7页

时间:2019-02-04

手写文字识别技术的研究_第1页
手写文字识别技术的研究_第2页
手写文字识别技术的研究_第3页
手写文字识别技术的研究_第4页
手写文字识别技术的研究_第5页
资源描述:

《手写文字识别技术的研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、手写文字识别技术的研究关兵摘要:随着计算机性能的提高和科技的不断发展,随着信息时代的到来,为适应社会的需要,文字识别技术也将更完善。OCR技术,利用光学技术对文字或字符进行扫描并转换成计算机内码,其工作原理是通过扫描仪或数码相机等输入设备获取文字、表格、图片等信息,利用各种模式算法分析文字形态特征,判断出文字的标准编码存储在文件中。在现实生活中有着广泛的应用价值。关键词:手写文字识别OCR技术形态特征模式识别引言计算机文字识别,俗称光学文字识别,其英文术语为OpticalCharacterRecognition(缩写为OCR),是指通过计算机技术及光学技术对印刷或书写的文字

2、进行自动的识别,达到认知的目的,是实现文字高速自动录入的一项关键技术。到目前为止,汉字OCR是模式识别技术的一个分支,其主要目的是将汉字(手写体与印刷体)自动读入计算机。而手写文字识别技术,是指通过计算机来识别手写文字的一种识别文字的技术。随着信息化的到来,OCR文字识别技术发展很快,在日常生活中日益重要。文字识别是中文信息录入的快捷手段,由于汉字是非字母、非拼音化的文字,笔划复杂多样,人工键入速度慢而劳动强度大,计算机自动识别文字或语言方式解决了这一难题,能快速高效地将汉字输入进计算机;文字识别技术是提高办公自动化水平的主要因素。办公自动化就是要借助计算机来进行文档的处理

3、,以代替人们日常的办公活动,在现代社会,图像信息占有较大的比重,存在大量文字信息,因此,文字的自动识别对图像的处理有重要的意义;文字识别技术丰富和完善了文字识别理论。现在人们已可通过手写文件经OCR产品的识别录入计算机,大大推动发展了文字识别理论;文字识别是智能计算机智能接口的重要组成部分,智能计算机能认识文字、图像和景物,能听懂语音、理解文字。视觉是智能计算机接受外界信息的主要手段,而识别文字是智能计算机必备的功能。一、OCR技术的发展OCR概念的诞生,要早于计算机的问世。早期的OCR多以文字的识别方法研究为主,识别的文字当时仅为0-9这几个数字。后来随着计算机的出现和发

4、展,OCR研究才在全球范围内广泛研究和发展。OCR发展至今,可分为三个阶段:1、第一代OCR产品出现于60年代初期,在此期间,IBM公司、NCR等公司分别研制出了自己的OCR软件,最早的OCR产品应该是IBM公司的IBM1418。它们只能识别印刷体的数字,英文字母及部分符号,而且都是指定的字体。60年代末,日立公司和富士通公司也研制出了各自的OCR产品。2、第二代OCR系统是基于手写体字符的识别,前期只限于手写体数字,从时间上来看,是60年代中期到70年代初期。1965年IBM公司研发出IBM1287,并在纽约世界博览会上展出,开始能识别印刷体数字、英文字母及部分简单的符号

5、。第一个实现信函自动分拣系统的是东芝公司,两年后NEC公司也推出了这样的系统,到1974年,分拣率达到92%-93%。3、第三代OCR系统要解决的技术问题是对于质量较差的文稿及大字符集的识别,例如汉字的识别。1966年,IBM公司开发的OCR系统利用简单的模板匹配法识别了1000个复杂的印刷体汉字,到了1977年,东芝公司又制出可识别2000多印刷体汉字的单字汉字识别系统。我国在OCR的研究方面起步相对较晚,70年代开始进行数字、英文及符号的识别研究,70年代末开始进行汉字的研究,到1986年,汉字的识别进入了一个具有成果性的阶段,不少单位推出了中文OCR产品。到目前为止,

6、印刷体汉字的识别率达到了98%以上,手写体的识别率也在70%以上,并且可对多种字体、不同字号混排识别,国家“863”计划对该方面的研究给予了很大的资助。目前,我国正在争取实现OCR产品识别精度更高、识别速度更快,能同时支持单机和网络操作,使得使用更方便,应用更广泛,达到不同用户的使用要求。二、文字识别的原理与方法汉字OCR的原理是将文字通过光电输入设备,如扫描仪、摄像机、写字板等,转换成二维的点阵信息后,通过对相应的识别方法转换成汉字文字。完成这一套转换工作的是汉字识别系统。文字的识别是指通过一定的方法和技术提取文字的特征并将其存储于机器设备中,实现对文字的自动判别。1、汉

7、字识别系统的组成汉字识别系统主要包括以下几个步骤:汉字图形输入、预处理、单字识别及后处理。汉字图形输入是指通过录入设备将文稿录入到计算机中,也就是说实现原始稿件的数字化,现在用的比较普遍的设备是数字化扫描仪、数字相机等;预处理是指在进行文字识别之前的一些准备工作,主要包括版面分析、图像净化及二值化处理、文字切分、正规化处理等,这一阶段的工作是很重要的,处理的效果如何,直接影响到识别的准确率;单字识别则体现着文字识别的核心技术,主要包括文字特征抽出的方法及分类判别算法。人能够通过大脑很简单地认识文字,是因为在人的大脑

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。