大数据时代背景下档案利用服务探析

大数据时代背景下档案利用服务探析

ID:32748368

大小:59.75 KB

页数:8页

时间:2019-02-15

大数据时代背景下档案利用服务探析_第1页
大数据时代背景下档案利用服务探析_第2页
大数据时代背景下档案利用服务探析_第3页
大数据时代背景下档案利用服务探析_第4页
大数据时代背景下档案利用服务探析_第5页
资源描述:

《大数据时代背景下档案利用服务探析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、大数据时代背景下档案利用服务探析摘要:本文首先描述了当前企业档案管理所面临的大数据时代背景;其次对大数据时代对档案管理和服务带来的挑战进行了分析;接着针对挑战提出了应对的解决方案;最后结合具体应用实例对解决方案进行了验证。关键词:大数据背景;档案利用服务;数据挖掘;文本挖掘1.大数据时代来临数据的爆炸式增长正在出乎人们的想象。据预计,2020年全球以电子形式存储的数据量将达35ZB,是2009年全球存储量的40倍。而在2010年年底,根据IDC的统计,全球数据量已经达到了120万PBo①人们不禁感叹随着信息化的逐步推进,我们迎来了大数据时代。何谓“大数据”,目前没有统

2、一的定义。通常认为,它是海量的非结构化数据。IBM公司把大数据概括成了三个V②,即Volume(数量大,通常以PB级别的数据量计)^Velocity(实时性,需要更短的时间处理数据)和Variety(多样化,以非结构化数据为主。这些特点也反映了大数据所潜藏的价值(Value),或许可以认为,这四个V就是大数据的基本特征。以某特大型企业档案馆为例,在“十一五”期间信息化规划项目统一推广实施档案管理系统的基础上,档案馆档案目录中心已将辖下各单位的档案目录信息进行集中管理、统一展现,建成了覆盖集团各单位,包含400余万卷案卷、4000余万件档案的全公司档案目录中心,馆藏存储

3、量已由GB向TB级和PB级转变。同时,随着公司电子文件应用的推广,数字档案和全文数据库是数字档案馆藏资源的重要增长点,其数据量将呈几何级数增长,存储的数据总量成了名副其实的海量规模。另外,档案资源中存在大量的非结构化数据,例如扫描图像、传真、照片、字处理文档、电子表格、演示文稿、语音和视频片段等。1.大数据背景下档案服务面临的挑战与传统档案的馆(室)藏资源或者其它应用相比,大数据时代下数字档案馆馆藏量具有媒体形式多、数据量大的特点,但这些特点也给档案利用服务带来了新的挑战:2.1挑战如何在海量数据中查询到所需要的档案信息在大数据时代下,企业在各种业务活动中产生的数据和

4、信息呈爆炸性增长,最终作为档案保存下来的文件也相应的增长。与过去信息贫乏的时代不同,在电子文件广泛利用和互联网高度发达的今天,信息泛滥同样给利用带来了困难。在过去,档案检索主要依靠手工著录、卡片检索,随着信息技术的进步、数据库技术的发展,计算机辅助档案管理使档案管理变得更为快捷和方便。但是在大数据时代,档案数量急剧增长,甚至出现了档案数据“胀库”的问题。③随着档案信息化建设的不断推进以及数据量的进一步增大,在进行档案查询时,往往需要的信息会被埋没在大量的不需要的数据中,并且检索性能急剧下降,甚至无法响应。因此,如何在大量的档案中快速而准确地找到所需的信息,是档案服务要

5、解决的首要问题。2.2挑战二一一如何在海量数据中抽取和挖掘有用的信息和知识知识管理是档案管理发展的趋势和方向,档案用户已不满足于仅限于数据或文件的利用,更希望能够获得数据背后的信息以及信息蕴藏的知识。因此,档案利用服务也应由提供数据、信息转变为提供知识。然而,知识不是自然生成的,知识也不是简单地存在于信息集合中,特别是蕴含在档案中的知识,需要经过抽取和挖掘才能展示出来。如何在海量数据中抽取和挖掘有用的信息和知识并提供给用户,是档案利用服务工作今后发展的方向。依靠人工抽取、挖掘知识,在传统纸质档案时代、档案数量不多的情况下还可实行,但在大数据时代海量档案存在、非结构化数

6、据盛行的今天则会变得心有余而力不足。因此,依靠信息技术进行数据挖掘、知识挖掘才是解决之道。2.3挑战三一一如何在海量数据中进行档案资源二次开发并提供利用档案的保存和管理是为了利用,在大数据时代,用户对档案资源的需求已不仅仅局限于原始的档案,需求变得更加个性化、多样化。这就需要通过对档案信息资源进行二次开发,制作多种形式的编研产品,并主动提供给用户。档案信息二次开发是指利用各种计算机技术、多媒体技术、通信技术等对档案及相关信息进行再次开发。④档案信息二次开发是档案资源信息再利用的升级,它所蕴含的信息量和信息价值将是无比巨大的,它是档案资源信息化开发的高级内容。在大数据时

7、代下,档案数量急剧增加、档案类型多种多样以及非结构化数据的大量存在,给档案信息资源的二次开发带来了困难。一是如何在海量数据中选择有价值的信息并找出它们之间的关联,二是如何编研开发非结构化的档案信息,三是如何减轻档案开发人员的工作量。2.数据挖掘一一大数据时代下档案利用服务的必然选择1.1大数据时代的档案业务流程转变大数据时代档案数据的量大、形式多等实际情况,带来的无法找到、查询性能急剧下降、甚至无法响应等问题,利用传统的简单查询服务模式已经无法适应大数据时代的要求。通过优化IT架构,提高性能是解决性能的一个途径,而通过模式识别、数据挖掘等技术手段对海

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。