欢迎来到天天文库
浏览记录
ID:5613291
大小:32.50 KB
页数:10页
时间:2017-12-20
《档案工作中大数据框架构建和应用思索》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、档案工作中大数据框架构建和应用思索 摘要:依据大数据定义,简要分析档案资源符合大数据特征,构建档案工作中的大数据框架,指出目前档案工作开展大数据条件尚不具备,但应从服务观念、档案信息质量、档案资源云平台构建三个方面为大数据应用做好准备,并以郑州市为案例分析了大数据试点的研究思路与实施路径。关键词:大数据;档案信息化;主动服务1大数据研究现状1.1大数据含义。大数据(bigdata),或称“巨量资料”,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到获取、管理、处理并整理成为帮助企业
2、经营决策更积极目的的数据,即不能用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。[1]亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单定义:大数据就是任何超过一台计算机处理能力的庞大数据量。[2]上述定义尽管表述不完全一致,如何定义大数据到目前为止仍然没有具体的标准形态,但基本体现了大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。101.2研究现状。通过对CNKI以大数据为主题词检索,得到相关文献4434条。进一步
3、缩小范围,在图书情报与档案一级学科中检索,获得文献39篇,其中档案学方面文章2篇。这些文章研究角度各异,或从图书馆服务角度,或从竞争情报角度等,偏重于图书情报二级学科。档案学方面,周枫[3]剖析了大数据给档案馆带来的影响,并据此提出了大数据时代档案馆生存与发展的相关策略;李小晨[4]介绍了在档案管理中运用大数据技术的策略。国外对大数据研究较深,档案领域中也已有实际应用。如EMC与梵蒂冈档案馆合作将82000件珍贵古代手稿数字化,通过大数据让更多人通过互联网阅读原版手稿。[5]从以上分析可以看出,大数据已成为
4、我国信息研究方面的热点,但在档案学方面的研究尚未开始。本文拟从大数据与档案工作的关系、架构、实施可行性等方面进行分析,并就大数据在档案工作进行试点展开讨论。2大数据框架构建2.1档案资源符合大数据特征10(1)档案数据体量巨大(Volume)。目前,单个国家综合档案馆档案资源总量基本达到了TB级,考虑到每个档案馆档案资源的不同,以及各类档案部门保存的档案数量,必将达到PB级甚至EB级。据统计,2011年,各级国家档案馆馆藏已达3.3亿卷,到2020年,馆藏将达到6亿多卷。[6]如果加上企事业各类档案部门馆藏
5、,将是一个海量资源库。目前,各类档案馆正在开展数字化建设与电子文件管理,进行资源整合。如,郑州市档案馆拟对850万卷档案进行数字化,并对郑州市所属5区6县的档案资源建设统一的资源整合平台。(2)档案资源种类繁多(Variety)。档案资源以文本类为主,还有大量的音视频档案、照片图片档案、图纸、凭证档案、地理信息、网络日志等,都是非结构化数据,描述这些档案资源的元数据又是结构化数据。海量结构化数据与非结构化数据的混合正是传统数据处理难以解决的问题,符合大数据的多样性特征。(3)档案价值高,但价值密度低。档案留
6、存着社会的历史记忆,具有很高的历史价值。然而对当前应用来说,海量档案信息,每次可能利用的数据非常少,存在着价值密度低的特点。如视频,连续不间断摄制过程中,可能有用的数据仅仅有一两秒。这些档案信息蕴含着巨大潜能,需要人员、流程与技术的密切配合,方能将其转化为更大的真正价值。10(4)处理速度要求高。大数据要求实时或近乎实时的处理速度,这对企事业单位来说没问题,对于国家档案馆来说好像要求过高,其实不然。传统档案利用方式是被动等待用户来查找原始信息,给社会留下“故纸堆”印象。如果改被动服务为及时、准确的主动服务,
7、这种主动服务不仅提供档案原始信息,还应提供BI、预测分析、内容分析、辅助决策分析等。2.2档案工作中大数据架构分析。其实大数据并不是现在才有的,也并不神秘,古已有之。档案学中的档案编纂与编研实际上就是大数据的处理过程,如,档案编研工作的一般程序是选题、选材、加工编辑、总纂与审核。其中选材包括搜集素材、确定素材与考订素材三个步骤。这个过程是人工处理,在浩瀚的档案中选取合适的数据不是一件容易的事,有时还需要到其他档案馆去查找,这是一个长期而艰巨的任务,往往需要几个月甚至数年去完成。在信息化时代,可以依托信息技术
8、构建大数据处理流程,如图1所示。图1大数据处理流程图1中,数据源是各档案馆馆藏档案资源,这些馆藏资源应该是数字化结果或电子文件。目前,各级各类档案馆正在大力开展档案数字化与电子文件管理项目建设,为大数据数据源奠定了基础。为顺利实现下一步信息整合与治理,应在标准基础上构建全国性电子文件与数字化成果管理与服务体系,如基于OAIS的全国性管理体系。[7]高速网络则是为了海量档案资源的传输。以TB甚至PB级的数据依赖In
此文档下载收益归作者所有