欢迎来到天天文库
浏览记录
ID:51470999
大小:64.00 KB
页数:4页
时间:2020-03-25
《【精品资料】浅谈文字识别软件OCR.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、浅谈文字识别软件OCR汉字识别软件的任务是研究如何使计算机能够“识字”,该系统通常是采用光电转换装宜将汉字或字符转换成电信号,并送入计算机,由计算机自动辨认、阅读,I対此称其为光学字符识别(OpticalCharacterRecognition),简称为OCR)。OCR的发展简况OCR的概念是在1929年由徳国科学家Tausheck最先提出來的,厉來美国科学家Handeltli提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第-篇关于汉字识别的文章,采用了模板匹配法识
2、别了1000个印刷体汉字。20世纪70年代初,日本的学者开始研究汉字识别,并做了人量的丁•作。我国研究汉字识别的起步比较晚,20世纪70年代末才开始进行OCR的研究工作。早期的OCR软件,由于识别率及产品化等多方血的因索,未能达到实际要求。同时,由于换件设备成本高、运行速度慢,也没有达到实用的程度。只有个别部门,如信息部门、新闻出版单位等使用OCR软件。1986年以厉我国的OCR研究有了很大进展,在汉字建模和识别方法上都有所创新,在系统研制和开发应用中都収得了丰硕的成果,不少单位相继推出了中文OCR产品。进入201U:纪90年代以厉,随着平台
3、式扫描仪的广泛应用,以及我国信息白动化和办公白动化的普及,大人推动了OCR技术的进一步发展,使OCR的识别正确率、识别速度满足了广人用户的要求。日前,比较流行的OCR软件很多,英文OCR主要有OmniPage,中文OCR主要有清华紫光OCR、淸华文通OCR、汉王OCR、中品尚书OCR、丹青OCR、蒙恬OCR等。尽管汉字字量人、字形复杂,但OCR技术L1经走向成熟。许多OCR软件不仅能识别黑白印刷体汉字,还能识别灰度和彩色印刷体汉字,识别速度很快,识别正确率达到了99%以上;可识别宋体、黑体、楷体等多种字体的简、繁体;可对多种字体、不同字号的混
4、排进行识别;有些OCR软件还能识别图像、表格。与此同时,对于手写体汉字识别的研究也収得了很大进展,正确识别率L1达到了70%以上。OCR软件的应用在扫描仪市场上,许多类型的办公和家用扫描仪均配有OCR软件,如紫光的扫描仪配备了紫光OCR,屮晶的扫描仪配备了尚书OCR,Mustek的扫描仪配备了丹青OCR等。扫描仪与OCR软件共同承担着从文稿的输入到文字识别的全过程。文稿扫描在办公领域屮经常用到,即将报纸、杂志等媒体上刊载的有关文稿通过扫描仪进行扫描,随后进行OCR识别,或存储成图像文件,留待以后进行OCR识别,将图像文件转换成文本文件或Wor
5、d文件进行存储。此外,数字化信息的存储、传输,不仅成本低、效率高,而且能够适应排版、网络传输等不断发展的需要。日前我国有很多历史遗留下來的大量图书、报刊、杂志等纸质珍品,急需将其转换成电子信息。如电子图书馆的建立,就需要将图书逐页扫描,加上OCR软件的识别,更替代了人丁•键入文字的工作,人犬缩短了录入时间,减轻了劳动强度,节省了人力且降低了费丿1打捉高了录入正确率、工作效率和现代办公白动化程度。11前OCR软件与扫描仪的搭配己应用到信息化时代的多个领域,如数字化图书馆,各种报表的识别,以及银行、税务系统票据的识别等。随着网络化、信息化的发展与
6、普及,其应用范围将越来越广泛。OCR系统的组成汉字识别软件OCR的功能是将各种录入汉字、印刷体或手写体屮每个汉字的图形或图像通过计算机辨认出来,并标出汉字类别代码。因此,汉字识别归根结底是—•个图像识别问题。由于汉字信息量很人,具有不同的字形、字体,而且结构复杂,因此汉字识别的过程极其复杂。市于扫描仪的普及与广泛应丿IJ,OCR软件只需提供与扫描仪的接口,利用扫描仪驱动软件即可。因此,OCR软件主要是由图像处理模块、版面划分模块、文字识别模块和文字编辑模块等4-部分组成。1・图像处理模块图像处理模块主要具有文稿扫描、图像缩放、图像旋转等功能。
7、通过扫描仪输入厉,文稿形成图像文件,图像处理模块对对图像进行放人,去除污点和划痕,如果图像放置不正,可以手工或自动旋转图像,目的是为文字识别创造更好的条件,使识别率更高。2版面划分模块版面划分模块主要包括版面划分、更改划分,即对版面的理解、字切分、归一化等,可选择自动或手动两种版面划分方式。目的是告诉OCR软件将同一版面的文章、表格等分开,以便于分别处理,并按照怎样的顺序进行识别。3.文字识别模块文字识别模块是OCR软件的核心部分,文字识别模块主要对输入的汉字进行“阅读”,但不能一目多行,必须逐行切割,对于汉字通常也是一个字一个字地辨认,即单
8、字识别,再进行归一化。文字识别模块通过对不同样本汉字的特征进行提取,完成识别,自动查找可疑字,具有前厉联想等功能。4.文字编辑模块文字编辑模块主要对OCR识别后的文
此文档下载收益归作者所有