文档扫描图像的批量自适应优化和归档

文档扫描图像的批量自适应优化和归档

ID:31368159

大小:109.50 KB

页数:8页

时间:2019-01-09

文档扫描图像的批量自适应优化和归档_第1页
文档扫描图像的批量自适应优化和归档_第2页
文档扫描图像的批量自适应优化和归档_第3页
文档扫描图像的批量自适应优化和归档_第4页
文档扫描图像的批量自适应优化和归档_第5页
资源描述:

《文档扫描图像的批量自适应优化和归档》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、文档扫描图像的批量自适应优化和归档  摘要:本文针对各种印刷和手写的纸质材料经过扫描仪扫描后形成的结果图像,甚至是老旧手写资料的扫描结果图像或图像质量不理想的历史扫描资料,通过对批量图像的共同特点进行分析,经算法设计,最终实现了对JPG、PDF等在内的多种格式扫描图像的批量性角度校正、去黑白边、高压缩比压缩和文档化归档处理,且着重介绍了算法的难点及其解决方案。  关键词:倾斜校正;自动裁剪;自适应阈值分割;高压缩比压缩  中图分类号:TP18文献标识码:A文章编号:1009-3044(2016)

2、28-0217-03  Abstract:inthispaper,avarietyofprintedandhandwrittenpapermaterialsbyscanningtheresultsaftertheformationoftheimage,andevenhistoryscansofoldhandwrittendataimageorimagequalityisnotideal,byanalyzingthecommoncharacteristicsofbatchimage,thealgo

3、rithmdesign,thefinalrealizationoftheJPG,includingavarietyofPDFthebulkoftheimageformatscananglecorrection,gototheblackandwhiteedge,highcompressionratioanddocumentarchiving,andemphaticallyintroducesthealgorithmofdifficultiesandsolutions.  Keywords:tilt

4、correction;automaticclipping;adaptive8thresholdsegmentation;highcompressionratio  1引言  在将纸质文档通过图像扫描设备转换为文本图像并进一步进行归档的过程中,由于人为因素或机械设备误差的影响,文档图像普遍存在图像质量不理想的状况,一般包括图像有黑边或白边、某种程度的倾斜、对比度较差等问题;此外,要符合归档要求,图像文件的压缩格式和图像大小也必须符合特定的要求。只有将图像中存在的问题进行修正后再按要求归档,才有利于

5、纸质材料的统一保存和归档管理,以进一步实现办公自动化的要求。  我们在扫描文档时,会遇到的人为因素中,通常包括纸张放置存在倾角或纸张放置不平整的情况,这些人为因素会导致图像整体明暗不均或使扫描的图像在边缘处留有难看的黑边,另外,纸张大小不恰当也会使扫描的图像在边缘处有黑边或灰边。这些黑边或灰边与纸张的底色反差很大。  目前,绝大多数的扫描仪都带有内置的图像处理模块。扫描仪自带的内置图像处理程序将重点放在图像清晰度的改善上,并不重视图像的倾斜校正和黑边等问题,且对图像最后的格式和压缩比采用通用算法

6、设计,用户只能通过菜单选择图像文件的保存格式,而无法决定图像的压缩比。这样的内置图像处理模块不但无法完全适应办公自动化对图像处理的需要,更无法进行大批量图像的批量化自动处理,无法提高办公效率。8  目前,存在一些流行的扫描优化软件,即可以先将扫描图像保存起来,再安装此类优化软件,对图像进行进一步优化。这一类的优化软件通常可以对扫描图像进行基本的修正,如旋转、黑边补白、裁剪、改变文件格式等。但是,这些软件中使用的优化方法,都是利用手动输入参数的操作方法来实现的,这需要使用者先自行观察图像中存在的问

7、题,然后点击相应菜单并输入自己估算的参数。例如,图像旋转校正的角度是由用户手动输入的,如果发现结果不理想,再调整参数。这样的逐张手动处理的方法是无法实现扫描图像的自动化和批量化处理的。  目前,还存在少数第三方的硬件驱动程序,可以直接优化底片扫描的结果,但是多数没有实现自动批量处理。  本文在总结上述软件优缺点的基础上,提出了一种新的纸质材料扫描图像自动化批量处理流程。本文将处理过程分为二值化、倾角检测、旋转校正、去边、压缩等步骤,使每一步都能自动执行并能够一次性处理批量图像。在倾角检测中,利用

8、Radon变换,快速、准确地计算出对应的文本行的方向角,从而得到整个页面的倾斜角。通常页面倾斜旋转校正采用旋转变换的方法。  2二值化  由于原始扫描结果图像一般保存为JPG格式或PDF等格式,且默认保存为真彩色图像。首先应该对扫描结果图像进行二值化处理,将其作为黑白图像来处理,一方面是可以减少后面几个计算步骤的数据量,另一方面也有利于后续算法的设计和实施。由于后续的裁剪和倾角检测等操作对二值化要求并不高,经过实验对比,常用的二值化方法,如Otsu法、全局阈值法等,都能满足要求,且效果差别不大。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。