欢迎来到天天文库
浏览记录
ID:31292161
大小:113.50 KB
页数:10页
时间:2019-01-08
《大数据时代的高校信息化框架》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大数据时代的高校信息化框架 摘要:随着大数据时代的到来,数据从简单的处理对象开始转变为基础性资源,如何更好地管理和利用好大数据已经成为普遍关注的话题,各行各业的信息化因此都会发生深层次的变革,高校也不例外。本文将聚焦大数据时代下的高校信息化这个话题,首先讨论了大数据的基本概念、关键技术、高校信息化在大数据时代的主要挑战,最后介绍了我校大数据处理的基本框架平台。 关键词:大数据;数据分析;高校信息化 中图分类号:TP311文献标志码:A文章编号:1673-8454(2014)03-0011-04 引言 近年来,随着以博客、社交网、微博、微信为代表的新媒体地不断出现,特别是信息获取技
2、术、物联网、云计算等技术的兴起,引发了数据规模爆炸式的增长,学术界、企业界、政府机构纷纷开始关注大数据问题。学术界最早是《Nature》于2008年就推出了BigData专刊。[1]全球知名的咨询公司麦肯锡2011年6月份发布了一份关于大数据的报告“Bigdata:Thenextfrontierforinnovation,competition,andproductivity”,对大数据的影响、关键技术和应用领域等都进行了很详细的分析。[2]美国奥巴马政府启动了“大数据研究和发展倡议”10,计划在生物医学、环境、科研等领域利用大数据进行技术突破。我国在《国家中长期科技发展规划纲要(2006
3、-2020)》提出:“信息领域要重点研究开发……海量信息处理及知识挖掘的理论与方法……”。另一方面,著名的连锁超市沃尔玛每小时需要处理100万条用户请求,维护着超过2.5PB的数据库;社交网络Facebook存储超过500亿张照片;IDC多年的研究结果证实:全球数据量大约每两年翻一番,每年产生的数据量按指数级增长,目前全球有46亿移动电话用户,有20亿人访问互联网,所有这些都证明了大数据时代已经到来,甚至有人认为,大数据是继物联网、云计算后IT产业又一次颠覆性的技术变革。 本文试图从大数据的基本概念、定义出发,分析了大数据时代的关键技术,大数据时代的高等教育信息化面临的挑战、对策、未来的
4、应用前景等。 一、大数据的基本概念及特点 对于大数据目前尚没有一个公认的定义,维基百科对大数据的定义为:大数据是指利用常用软件捕获、管理和处理数据所耗时间超过可容忍时间的数据集。[3]麦肯锡将大数据定义为:无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。[4]大数据不是一种新技术,也不是新产品,而是一种新现象,大数据强调对数据的抓取、管理和处理。 1.大数据具有以下4个特点,既4个“V”[5] (1)数量(Volumes):是指数据规模超大。数量级别从TB(1TB=1024GB)级别,跃升到PB(1PB=1024TB)、EB(1EB=1024PB)乃至Z
5、B(1ZB=1024EB)级别。10 (2)多样性(Variety):是指管理结构化、半结构化和非结构化数据。这些数据来自多种数据源如传感器、智能设备,数据种类和格式冲破了以前所限定的结构化数据范畴,包括文本、微博、音频、视频等等。 (3)速度(Velocity):是指处理数据快,包含大量或实时数据分析处理的时间要求非常短,1秒定律。速度影响数据时延,从数据创建或获取到数据可以访问的时间差。 (4)价值(Value):是指价值密度低,商业价值高。以视频为例,连续不间断的监控过程中,可能有用的数据仅仅有一两秒。 大数据与传统的数据库也有明显的区别,两者在数据来源、数据处理方式和数据思
6、维等各个方面都有很大的变化。正像孟小峰所言,两者的区别就是“池塘捕鱼”和“大海捕鱼”的区别,前者代表着传统数据库时代的数据管理方式,后者则对应着大数据时代的数据管理方式,其在数据规模、数据类型、数据模式、数据对象、处理工具上都有巨大的差异。[6]这意味着面对大数据时代,应该采取全新的数据思维来应对,这种数据思维将数据看作一种基础资源,用这种资源来协同解决诸多领域的问题。 2.大数据来源 那么大数据来源于哪里呢?人类经过几千年的发展,今天数据的产生已经不受时间、地点的限制。目前,大数据的来源主要有以下几个部分。 (1)信息系统。或者叫运营系统,数据库的出现促使了这一阶段的快速发展,常见
7、的超市管理系统、银行管理系统,高校人事管理信息系统,每一笔业务,都会在数据库中产生一系列数据,该系统经过多年的发展,已经趋于稳定与成熟。10 (2)互联网广大用户。互联网的诞生促使了人类交流新篇章的开启,尤其是微博、微信为代表的新媒体的发展和以智能手机、平板电脑为代表的新型移动职能终端的出现,促使了以用户原创内容(UserGeneratedContent,UGC)这类数据的爆炸式增长,其产生的数据量更是无可比拟的。
此文档下载收益归作者所有