资源描述:
《计算机科学_投稿模板》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、一种基于模板的档案图像压缩新方法黑体小2号杨有1,2张小小2王伟2,3黑体5号(重庆师范大学数学与计算机科学学院重庆400047)1(重庆大学计算机科学与工程学院,重庆400044)2(重庆教育学院计算机与现代教育技术系,重庆400067)3仿宋5号摘要黑体小5号在大容量档案图像数据库中,不仅单页档案图像内部存在数据冗余,而且档案图像页之间存在大量集合冗余。本文提出了基于模板的压缩新方法,通过定义相似图像集合的模板,充分利用图像数据的先验知识,对档案图像的内容进行分析和理解,从图像内和图像间以二维模式压缩图像数据。实验表明,该方法能够大幅提高压缩性能。关键词黑体小5
2、号档案图像,模板,图像压缩,集合冗余楷体5号中图法分类号黑体:TPXXX小5号,作者自己给出文献标识码黑体小5号:A小5号NewCompressionApproachtoDocumentImageBasedonTemplate黑体5号YANGYou1,2ZHANGXiao-xiao2WANGWei2,3小5号(SchoolofMathematicsandComputerScience,ChongqingNormalUniversity,Chongqing400047,China)1(DepartmentofComputerScienceandEngineering,
3、ChongqingUniversity,Chongqing400044,China)2(DepartmentofComputerandModernEducationTechnology,ChongqingEducationCollege,Chongqing,400067,China)36号AbstractInsuperlargedocumentimagedatabase,dataredundancyexistsnotonlyinindividualimage,butalsobetweenimages.Anewcompressionapproachbasedontem
4、platewasproposed.Throughthedefinitionoftemplate,theapproachutilizedtheimagepropheticknowledgesufficiently.Aftertheanalysisandunderstandingofimagecontent,itcompressedimagefromintra-imageandinter-image.Theexperimentshowedthattheapproachcouldincreasecompressionratiogreatly.KeywordsDocumen
5、timage,Template,Imagecompression,Setredundancy小5号档案数码化是信息化建设的一项基础工作,而信息化又是覆盖我国现代化建设全局的一项战略举措。基于网络的数字档案图像应用系统必须考虑三个问题:一是从存储空间方面考虑,即档案的大小。一页ASCII码档案只占2~3KB,而一页典型扫描的数字档案需要500kB~2MB,由此可见数字档案压缩的重要性。二是从时间方面考虑,即压缩图像的有效存取。传统压缩减少了存储容量,但没有提供压缩数据的有效存取方法,比如快速传输、压缩域处理和存取等。三是数字档案的可读性,即档案的质量。因此,在遵照《中
6、华人民共和国档案法》和一些相应行规的前提下,对数字档案图像进行压缩就成为这类应用系统的核心问题。正文文字小5号1档案图像压缩技术黑体5号档案图像属于静态图像,但它又与诸如遥感和医学等静态图像有所区别,其压缩方法也具有一定的特殊性。在众多的档案图像定义中,公认的观念是:档案图像是具有结构的图像,它包含了许多表征语言符号的元素,且这些元素之间具有明显的冗余性。由此,我们知道,在档案图像中,大多数有用信息在符号级,而不是在像素级或纹理级中,因此纯粹的基于像素级或亚像素级的静态图像编码方法对档案图像是不适用的。同时,由于档案图像具有高对比度、高倾斜度、局部非均匀像素模式等特
7、点,对其采用纹理编码也是不合适的。对于文本富裕档案,由于符号多次重复出现,而且图像具有较高程度的层次结构,所以这类档案的压缩可以采取去除符号级冗余的压缩方法,即PM&S(PatternMatchingandSubstitute,模式匹配与替代)技术[1,2]。在数字档案图像应用系统中,数据压缩不仅要考虑单幅档案图像的编码,而且还要考虑档案图像之间的冗余性,即用图像的集合统计特性来代替单个图像统计特性,从而降低整个图像集合的熵。比如,在工商档案、国土资源档案等政府资源类数字档案应用系统当中,一些申请书和登记表的内容都具有相似性,各户对应档案页之间存在极大的信息冗余