中文商务名片识别系统的实现.pdf

中文商务名片识别系统的实现.pdf

ID:5354516

大小:218.42 KB

页数:5页

时间:2017-12-08

中文商务名片识别系统的实现.pdf_第1页
中文商务名片识别系统的实现.pdf_第2页
中文商务名片识别系统的实现.pdf_第3页
中文商务名片识别系统的实现.pdf_第4页
中文商务名片识别系统的实现.pdf_第5页
资源描述:

《中文商务名片识别系统的实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、中 文 信 息 学 报第14卷第2期JOURNALOFCHINESEINFORMATIONPROCESSINGVol.14No.2中文商务名片识别系统的实现张 纯 张 涛 黄 笑中国科学院自动化研究所文字识别工程中心 北京 100080摘要 本文介绍了一个实际应用中的中文商务名片识别系统,分析了系统的结构。该系统首先结合实际中的一些具体问题对名片图象进行预处理,然后在传统版面分析技术的基础上针对名片版面的特点进行版面分析。在对分割区域的字符进行识别之后,根据识别结果中的语义知识和版面分析得到的位置信息对识

2、别结果进行基于知识规则的理解,从而实现了名片信息的自动录入,整个系统在实际中表现出了良好的性能。关键词 名片识别系统 图象处理 版面分析 字符识别 基于知识规则的理解AChineseBusinessCardsRecognitionSystemZhangChunZhangTaoHuangXiaoInstituteofAutomation,CASBeijing100080Email:Zhangch@hw.ia.ac.cnAbstractInthispaper,weproposeaChinesebusiness

3、cardsrecognitionsystem,andanalyzethestructureofit.Thefirstpartofthesystemisthepretreatmentofbusinesscardimage.Inthispart,wehavetosolvemanypracticalproblems.Then,thesystemanalyzethelayoutofthebusi2nesscard,divideitintoseveralblocks.Infollow,thecharactersin

4、everyblockarerecognized,andtheresultisfurtherunderstoodbyusingknowledgerules.Afterwholeprocess,theinformationofbusinesscardisimportedtothecomputerautomatically.KeywordsChinesebusinesscardsrecognitionsystemImagemanipulationLayoutAnalysisCharacterrecognitio

5、nKnowledgerule一、概述名片是人们日常商务活动中最重要的信息载体之一,但是随着经济交往的日益频繁,名片的数量大大增加,给名片信息的保存、管理和查找带来了很大的困难。微机和个人数字助理(PDA)的普及,使得在微机和PDA中利用数据库对名片信息进行保存和管理成为可能,而这又需要解决名片信息的录入问题,如果能够利用OCR技术让计算机自动地获取名片的各项信息,必将在很大程度上节省人力和时间。本文所介绍的中文商务名片识别系统就是为实现这一目的而开发的。整个系统由图象预处理、版面分析、字符识别、名片信息理

6、解四个部分组成(如图1所示)。21图1 系统框图系统的输入是单张或多张名片的扫描图象。预处理部分主要包括单张名片的提取、以及专门针对名片图象所做的二值化和倾斜矫正。版面分析部分主要针对名片版面的特点将整个版面分割成多个功能块,初步判断功能块的属性,并将文本块分割成文本行。识别部分采用一个多字体大字符集多语种的混识系统。理解部分是一个基于知识的综合决策系统。最终,系统将扫描名片图象处理成为有组织的名片信息项。下面分别介绍系统的各个部分。由于名片版面比较特殊也比较复杂,预处理和版面分析过程与通常的文档OCR系

7、统有较大的差别,因此本文将重点讨论前两个部分。二、名片图象的预处理对于单张名片的黑白扫描图象来说,预处理的主要内容包括对图象进行去噪声和倾斜矫正。如果是灰度图象,则还包括二值化处理。当扫描设备采用平板扫描仪将多张名片扫描成为一幅大图象的时候,还要将单张名片从整幅图象分别提取出来。2.1 单张名片的提取当扫描设备采用平板扫描仪时,为使用户方便、提高扫描速度,一次要扫描多张名片。这里假定在一次扫描中,所有名片的摆放方向都一致,即都按横排或竖排放置,每张名片之间保持一定间距,则可在以下算法的基础上将单张名片提取

8、出来:1.判断名片是横排还是竖排摆放。2.精确定位最下面一行左数第一张名片的左下点坐标。3.根据名片的几何尺寸和上一步的定位结果得到这张名片的外围边界,将名片从整幅图象中抹掉,返回第二步,定位下一张名片的起始点坐标,直到所有名片被提取出来为止。用这种方法提取单张名片每行名片可以不必严格在同一水平线上,每行每列的名片数目可以是任意多张。2.2 二值化名片的版面色彩丰富,很多名片的背景、底纹与前景字符的色差不足够大,以致于采用黑白

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。