北京数字档案馆项目数据清理情况分析

北京数字档案馆项目数据清理情况分析

ID:26342978

大小:53.00 KB

页数:6页

时间:2018-11-26

北京数字档案馆项目数据清理情况分析_第1页
北京数字档案馆项目数据清理情况分析_第2页
北京数字档案馆项目数据清理情况分析_第3页
北京数字档案馆项目数据清理情况分析_第4页
北京数字档案馆项目数据清理情况分析_第5页
资源描述:

《北京数字档案馆项目数据清理情况分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、北京数字档案馆项目数据清理情况分析摘要:目前由于数字档案馆的投入运行,各类档案数据的存储数量急速增加。与此同时,档案数据质量随着脏数据的出现受到很大影响,针对数据质量的清理工作势在必行。本文根据北京市档案馆的工作经验整理出档案数据质量存在的典型问题,提出了数据清理的基本方法和步骤,为今后档案工作数据清理提供相关经验和建议。中国4/vie  关键词:数字档案馆数据质量脏数据数据清理  北京市档案馆档案管理系统经过十余年的应用,目前积累的存储数据非常庞大,其中档案机读目录1400余万条,档案数字化副本7000余万页,存储量达到80TB。由于数据库设计约束

2、不足、数据录入错误等多种原因导致系统中存在脏数据(dirtydata,是指数据集中存在较多相似重复的、不一致的、格式不匹配的、不符合逻辑的、带有空缺值的以及没有实际作用的数据)。[1]这些数据直接拉低了档案数据质量,影响档案检索查询效果。随着北京市数字档案馆项目的深入推进,为更好地配合北京数字档案馆项目建设工作,北京市档案馆在2016年开展了档案数据集中清理工作。  一、北京市档案馆现有数据情况  北京市档案馆馆藏数据主要包括:各类档案数字化副本(纸质文书档案、纸质照片档案、音视频档案等数字化副本)、电子文件(含数码照片)、档案机读目录数据、档案系统

3、管理数据等。其中档案系统管理数据通常包括档案实体表、档案存址表、档案原缺表、利用者信息表、调归卷信息表等数据。  这些数据可分为结构化数据和非结构化数据两类。结构化数据是指存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据无法用数字或统一的结构表示,如文本、图像、声音、网页等,称之为非结构化数据。结构化数据包括档案机读目录数据和档案系统管理数据。非结构化数据包括各类数字化副本、电子文件、数码照片等。两类数据存在问题和解决的方法不同。结构化数据整体存储在数据库中,数据清理依赖数据库执行指令完成。非结构化数据是以单个文件形式存储在磁盘驱动

4、器中,可以人工进行清理,但当数据量非常大的情况下,则需依靠定制开发计算机程序完成。在向北京数字档案馆系统迁移数据的过程中,纸质档案数字化副本和档案机读目录是存在问题最多、清理工作量最大的两类数据资源。因此,数据清理的重点也集中在纸质档案数字化副本和档案机读目录数据上。  二、北京市档案馆数据质量存在的典型问题(以机读目录和纸质档案数字化副本为例)  (一)档案机读目录数据存在以下四类问题:  1.重复数据  数据重复主要有两种情况,一种是在同一个库表中存在全部字段值完全相同的记录;另一种是在不同的库表中存在相同的记录。产生的主要原因均为数据被重复导入

5、,数据库没有唯一性校验造成的。应保留一份数据,删除重复数据。  2.缺失数据  数据库表中很多记录缺失关键字段值,关键字段例如“全宗号”“目录号”“案卷号”“档号”“题名”“开控状态”等字段。产生问题的主要原因是目录在手工录入过程中遗漏造成的,数据库在设计上完整性约束不足也是原因之一。这些关键字段值应进行补充以保证数据检索、利用的需求得以满足。  3.错误数据  数据库表中有的记录中“档号”字段值编制错误,例如照片档案档号结构应该是“全宗号-目录号-案卷号-张号”,但是实际录入的是“全宗号-目录号-案卷号”。有的记录赋值错误,例如有的“张页数”字段中

6、含有“+”等非法字符,其值域范围本应仅限于正整数。有的记录编制位数不足,例如“起始页号”字段值按照目前标准应该是5位,但是早期的记录只有3位或4位。这些错误的原因有的是由于手工录入错误造成的,有的是由于字段值编制标准发生变化造成的。错误的数据应通过数据清理进行修正。  4.无效数据  数据库表中的历史测试数据,暂存数据等,应通过清理工作直接删除。  (二)数字化副本数据存在四类问题  1.数据命名不规范  数字化副本文件命名有如下几类:3位流水号.tif、4位流水号.tif、5位流水号.tif、a_p流水号.tif、档号.tif。产生这种情况的原因是

7、由于不同时期数字化加工采用的标准不同,还有一些不符合规范采用手工命名导致的特殊命名方式。不符合命名规范的数字化副本在数据管理和数据挂接中存在隐患,容易产生挂接错误等问题,应采用统一的命名标准,保证数据在案卷级和文件级挂接的可靠性。  2.数据质量不可靠  个别数字化副本存在无法打开的情况,属于数据扫描质量问题。错误的数据会导致无法挂接,系统无法正常读取数据。可以使用软件检测图像的可读性,保证数据质量。  3.数据保存不唯一  有些档案的数字化副本在系统中存在两份,彩色一份、黑白一份,黑白的是早期的数字化成果,彩色的是近期数字化成果。重复数据不利于数据

8、管理,也浪费存储空间,选取图像质量好的副本进行存储即可。  4.存储方式不�y一  数据在磁盘上的存储方式不

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。