欢迎来到天天文库
浏览记录
ID:20824576
大小:214.95 KB
页数:5页
时间:2018-10-16
《论大数据背景下的电子文件归档.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、浅谈大数据背景下的电子文件的归档管理2011413078游玫玫摘要:主题词:1、引言随着物联网、移动互联网、社会化网络的快速发展,数据将成几何级数增长。据估计,2007年,人类大约存储了超过300艾字节的数据,而到2013年,世界上存储的数据预计能达到1.2泽字节。其中,非数字数据只占不到2%。“大数据”时代已经悄然来临,并给各行各业带来了数据使用方式的根本性变革。这场变革也必然对档案界产生深刻影响。在大数据时代背景下,各行各业都面临着对庞大而复杂的数据进行有效管理的巨大挑战,人们越来越认识到对自身产生和拥有的大数据进行有效管理的
2、重要性和迫切性,档案行业也不例外。其中,数据的爆炸式增长也必然带来电子文件的爆炸式增长,并将成为新生成文件的主体。电子文件是数字档案馆信息资源的重要来源,是数字档案馆管理的主要对象。但是,目前电子文件的归档工作还没有得到足够的重视,很多重要的电子文件无法确定其保管的职责而游离在网络系统中,处于档案的管理之外,这样势必给我们进行的档案数字化建设造成不可弥补的损失。因此,在大数据时代背景下做好电子文件的捕获和归档工作刻不容缓。2、何谓“大数据”(一)大数据的概念与云计算一样,“大数据”(BigData)是最近几年被人们热议的话题。半个
3、世纪以来,随着计算机技术全面融入社会生活,信息呈几何式增长,量的积累引起了质的改变。而最先经历信息爆炸的学科是,如天文学和基因学。创造出了“大数据”这个概念,进而发展到所有的领域中。最初,大数据这个概念是指需要处理的信息量过大,超过了一般电脑处理数据所能使用的内存量,因此工程师必须改进处理数据的工具。今天,大数据是人们大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人民获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构以及政府与公民关系的方法。(二)大数据,大挑战2013年1月29
4、日,住房和城乡建设部公布了首批90个智慧城市试点,由家统一规划和施行的智慧城市建设正式起步。建设智慧城市要遵循“多用信息少用能源”“、多用信息少受灾害”以及“多用信息多利民众”几项原则。档案馆作为永久保存档案,并提供档案为社会服务的科学文化事业机构,储存有海量的信息资源,是信息资源的聚焦体,但是由于管理方式的落后、人才的欠缺、社会档案意识的低下等原因,这些信息资源宝藏并没有得到有效地开发和利用。智慧城市的建设是档案信息资源得以更好开发和利用的真正机会,是档案馆真正融入城市、提高形象的难得机遇。智慧城市依赖信息的使用,档案馆要想真正
5、融入智慧城市的建设,就需要盘活档案馆保存的信息,使这些信息融入智慧城市的信息流,为决策层、为公众所用,要盘活各个档案馆保存的海量的大数据时代,电子文件以指数级的速度增长,给电子文件的管理带来了前所未有的挑战,虽然我们知道这些浩瀚的电子文件中蕴藏着巨大的“金矿”,但我们逐渐发现想要从这些电子文件中“淘金”比纸质文件还困难。面对着巨量的电子文件,我国长期以来提倡的“直接鉴定法”将在此遇到严峻的挑战,文件鉴定人员逐一阅读每一份电子文件的原文恐怕实在是无能为力。后来档案界比较认同电子文件的宏观鉴定方法,即从总体上判断机构形成有价值文件的能
6、力,而不是直接地对文件加以处理。按照这种思路,在确定一个机构是电子文件管理的对象后,就需要对这个机构产生的电子文件进行收集,对这些电子文件进行收集只完成了电子文件管理的第一步,而且在现今条件下,收集这些电子文件也并不难,困难的是如何快速的从这些电子文件中检索出所需要的文件?如何对这些电子文件进行分类?如何鉴定哪些是值得归档保存的?如何对这些电子文件进行编研从而抽取出其中的知识因子以供社会利用?要解决上述问题,档案工作者除了从管理方面寻求解决办法外还要寻求技术的帮助。大数据技术可以从技术上提供解决这些问题的办法。在普通的硬件上安装大
7、数据转发器,就能收集数据形成庞大的系统数据,这个量级可以达到每天数TB并逐渐向PB数量级扩大,大数据软件可以为机器生成的海量数据建立索引,将其整理成可以搜索的链接,这正是档案工作迫切需要的技术。除此之外大数据技术还能完成数据的分类、数据的挖掘,从而使档案界有应对越来越复杂的数据的分析能力。1.2.2处理非结构化电子文件需要大数据技术大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据,现代互联网应用呈现出非结构化数据大幅增长的特点,至2012年末,非结构化数据占有例将达到整个数据量的75%以上,同时,由于数据显性或隐性的网络
8、化存在,使得数据之间的复杂关联无所不在。一直以来,人们对数据的管理采用的是关系型的数据库,比较有代表性的就是IOE(I指IBM的服务器,O指Oracle的数据库,E指EMC的存储模式)模式,档案行业也如此,但是大数据时代,IOE模式已经不适合做大数
此文档下载收益归作者所有