欢迎来到天天文库
浏览记录
ID:52533942
大小:5.08 MB
页数:21页
时间:2020-04-09
《光学字符识别技术.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、光学字符识别OCR介绍OCR(opticalcharacterrecognition)文字识别[1]是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析。可以极大减轻数据录入工作的强度,提高数据
2、录入的速度。一.文字识别系统的构成。印刷体识别的原始图像是通过扫描仪、CCD器件或传真机等获得的二维灰度或二值图像,其识别过程如下图:进入OCR系统获取图像识别文稿校对结束图像预处理版式分析文本的切割特征提取单字识别后处理识别识别过程图像预处理版式分析文本的切割去噪声倾斜矫正二值化等段落表格图表文本切割字符切割特征提取统计特征结构特征单子识别特征库字库后处理词频结果纠正语义二.文字识别技术OCR识别技术可分为印刷体识别技术和手写体识别技术,而后者由分为联机手写识别和脱机手写识别技术。联机手写识别脱机手写识别识别
3、快出错多空间多更新快出错少识别慢识别器是系统的核心:用于文字识别的方法有统计模式识别,结构模式识别和人工神经网络等方法。实时识别输入被识别样本特征提取特征选择分类识别识别输出学习输入学习样本特征提取特征选择分类识别改进分类器检验特征字典分类器设计OCR应用领域票据类证照类银行卡、车牌名片、文档人民币冠字号票据类票据自动分类OCR识别自动分类中国银行转账支票现金支票招商银行支票工商银行支票票据类OCR识别引擎将票面要素(大写金额、小写金额、出票日期、支票号、出票人账号、收款人、磁码、支付密码等)精准识别出来,实现
4、自动录入,自动校验,加快审核的及时性,降低人工肉眼辨别的疲劳度。票据类凭证识别分类OCR识别自动分类OCR识别自动分类OCR识别自动分类OCR识别自动分类类型:销卡类型:开卡类型:换卡类型:建立卡与用户关系证照类资质文件分类资质文件影像资料企业法人营业执照企业法人营业执照自动命名、自动分类自动命名、自动分类税务登记证税务登记证自动识别、自动命名、自动分类组织机构代码证组织机构代码证……证照类资质文件要素识别企业法人营业执照识别内容:1、注册号:XXXXXXX2、执照编号:XXXXXX3、名称:XXXXXXXXX
5、4、住所:XXXXXXXXX5、法定代表人姓名:XX6、公司类型:XXXXXX7、注册资本:XXX万元8、实收资本:XXX万元9、经营范围:XXXXXXXXXXXXXXXX10、营业期限:X年X月X日至X年X月X日证照类身份证识读仪:读取芯片信息扫描仪:扫描证件正反面姓名XXX性别X民族:XX出生XXXX年XX月XX日住址XXXXXXXXXXXXXX公民身份号码XXXXXXXXXXXXXXXXXXXXX签发机关XXXXXXX有效期限XXXX。XX。XX-XXXX。XX。XX照片比对信息证件真伪一致证件真伪不一致
6、X证件识别识别到的证件信息:OCR识别证件表面信息银行卡银行:CreditBank卡号:3902018198641384有效期:01/12姓名:UISERNAME识别到的证件信息:OCR平台车牌OCR智能停车场视频卡口自动识别车辆名片文档多平台管理:用户可通过手机、PC及WEB服务器端对文档进行识别、管理多平台数据实时同步名片文档管理名片识别识别内容:1、地址:XXXXXXX2、手机:XXXXXX3、电话:XXXXXXXXX4、传真:XXXXXXXXX5、公司名称:XXOCR识别快速录入人脉信息,支持移动端、P
7、C端及云端识别人民币冠字号人民币纸币上的编码又称冠字号码,“冠字”是印在纸币上用来标记印刷批次的两个或三个英文字母,由印钞厂按一定规律编排和印刷;“号码”则是印在冠字后面的阿拉伯数字流水号,用来标明每张钞票在同冠字批次中的排列顺序。冠字号产品优势技术领先自动检测并修正高识别率自动审核影像加密存储自动起名并分类防篡改技术谢谢
此文档下载收益归作者所有