档案数字化扫描与存储格式比较研究.doc

档案数字化扫描与存储格式比较研究.doc

ID:28730873

大小:41.00 KB

页数:9页

时间:2018-12-13

档案数字化扫描与存储格式比较研究.doc_第1页
档案数字化扫描与存储格式比较研究.doc_第2页
档案数字化扫描与存储格式比较研究.doc_第3页
档案数字化扫描与存储格式比较研究.doc_第4页
档案数字化扫描与存储格式比较研究.doc_第5页
资源描述:

《档案数字化扫描与存储格式比较研究.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、档案数字化扫描与存储格式比较研究1、档案数字化与扫描技术   档案数字化实现文本的输入.主要是采用扫描方式将纸质的文件与档案转换为数字化的形式。扫描加工是通过中高速扫描仪和专用扫描软件将整理和分检好的档案资料批量转化成图像文件,并自动实现图像压缩存储的过程。   1.1国家规范中的有关标准   档案数字化直接标准除《电子文件归档与管理规范》外,就是《纸质档案数字化技术规范》。这一技术规范指出。“扫描应该根据档案幅面的大小选择相应规格的扫描仪或专业扫描仪进行扫描。大幅面档案可采用大幅面数码平台,或者缩微拍摄后的胶

2、片数字化转换设备等进行扫描,也可以采用小幅面扫描后的图像拼接方式处理。”另外,“纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫捕方式:纸张状况好的档案可采用高速扫捕方式以提高工作效率。”   扫描色彩模式一般有黑白二值、灰度、彩色等,通常采用的是黑白二值。具体又细分为三种:“页面为黑白两色,并且字迹清晰、不带插网的档案,可采用黑白二值模式进行扫描。页面为黑白两色,但字迹清晰度差或带有插图的档案,以及贞面为多色文字的档案,可采用灰度模式扫描。页面中有红头、印章或插有黑白照片、彩色照片、彩色捕图的档案,可视

3、需要采用彩色模式进行扫描。”   扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。因为高分辨率容易使文件遭到复制,基于此,国家规范中规定采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率一般均选择≥100dpi。如遇到文字偏小、密集、清晰度较差等特殊状况,则可以适当提高分辨率。而需要进行OCR汉字识别的档案,扫描分辨率一般建议选择≥200dpi。   1.2实际操作中的做法   实际工作中.档案部门根据档案本身不同情况,一般都采用各类扫描仪进行扫描,数码相机则较少使用

4、。另外,实际扫描中受档案状况或扫描设备所限,也存有一些暂时无法进行数字化转换的档案,如纸张过于破损、发脆,或者某些尺寸过大的图纸等。而这些只能等待设备或者技术的更进后才可以解决。   色彩模式的选择是依据现有的设备以及档案本身状况而定的,可以遵守循序渐进的原则。比如杭州市档案馆在进行纸质档案数字化时,一期以黑白扫描为主,二期对红头文件及其他带有红章的文件进行彩色扫描,三期则全部进行彩色扫描。无疑,彩色扫捕的层次更加丰富,清晰度更高。可以更真实地显示档案原貌。   分辨率的选择与设备关系很大,在不同地区、不同部门

5、也有所差别。如杭州市档案馆在纸质档案数字化的一期工程中,就将扫描分辨率定为300dpi.浙江省档案馆的数字化扫描分辨率一般在200~300dpi左右,有的高达600dpi;而在一些相对设备比较落后的部门与地区,其扫描分辨率大都是按照国家规范来设定的,甚至于很多部门还达不到200dpi。分辨率越高,扫描后的图像就越清晰,但同时必须考虑到图像文件的大小。   1.3扫描技术发展趋势   扫描技术中最主要的是色彩模式选择和分辨率选择。   色彩模式无疑会朝着彩色扫描发展,而分辨率的选择需要根据实际业务进行灵活设置。一

6、般情况下,为了满足网络化查询利用,黑白图像采用200dpi就可以满足要求,彩色图像的扫描分辨率还可以低一些,具体参数可以根据扫描清晰度和质量因素进行综合选择。对于一些特殊的利用如承办展览等可以采用较高的扫描分辨率来进行。但要值得注意的是,分辨率的选择既不可过低,也不可过高。如福建曾采用了50dpi的扫描分辨率,虽然容量小、费用低,但是根本无法实现上网查询利用,等于做了无用功;另一方面,如果一味追求过高的分辨率,则会导致容量过大,对于网上资源的传播也是一种负担。   档案数字化后还要考虑文字识别(OCR)的运用。

7、一般来说,文字识别主要用于全文检索之用,而非真正将扫描后的网像文件还原为文档,因而,这一点说,不要以OCR的识别率来设置扫描分辨率,《纸质档案数字化技术规范》建议需要OCR识别的图像文件,分辨率≥200dpi,这是一个比较中性的标准。   2、数字档案的存储格式   2.1文档数据的存储   如何在数字化过程中将馆藏档案统一转变为某些具有国际或国家标准的电子格式,是档案数字化首先应该考虑的问题。   《电子文件归档与管理规范》中推荐的通用文件格式为:文字型数据采用XML文档和RTF、TXT格式:扫描图像数据采用

8、JPEG、TIFF格式。《纸质档案数字化技术规范》中规定:采用黑白二值模式扫描的图像文件,一般采用TIFF(G4)格式存储;采用灰度模式和彩色模式扫描的文件,一般采用JPEG格式存储:提供网络查询的扫描图像,也可存储为CEB、PDF或其他格式。从前者到后者,可看出存储格式是不断发展,且多元的。   2.1.1文本型数据存储格式比较   以下对常见的几种存储格式进行比较,其优缺点都比较显

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。