欢迎来到天天文库
浏览记录
ID:31356905
大小:115.00 KB
页数:11页
时间:2019-01-09
《大数据关键技术及发展》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大数据关键技术及发展 摘要:在介绍大数据基本概念及特征的基础上,分析了大数据国内外研究现状及大数据技术,并针对大数据面临的相关问题提出了应对策略。最后,对大数据技术发展进行了总结与展望。 关键词:大数据;大数据技术;数据挖掘 DOIDOI:10.11907/rjdk.161899 中图分类号:TP301 文献标识码:A文章编号:16727800(2016)010002303 0引言 随着互联网、物联网、云计算、三网融合等IT与通信新技术的迅速发展,人类社会的数据规模和种类正以史无前例的速度扩张,大数据时代正
2、式来临。大数据规模大、类型多样、生成快速,且具有潜在价值,对科技进步和人类社会发展具有重大意义。 1大数据概念 目前,虽然大数据的重要性已经得到各界的一致认同,但大数据是一个比较抽象的概念,关于大数据的定义尚未形成统一定论。一般意义上,大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合[1]。具体定义有:①全球最大的电子商务公司亚马逊的大数据科学家JohnRauser认为:大数据是任何超过了一台计算机处理能力的数据量[2];②11Informatica中国区首席产品顾问
3、但彬认为:“大数据”是“海量数据”+复杂类型的数据[3];③维基百科将大数据定义为:利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集[4];④全球著名咨询机构麦肯锡公司在报告《Bigdata:Thenextfrontierforinnovation,competition,andproductivity》中给出的大数据定义是:大数据是指其大小超出常规的数据库工具获取、存储、管理和分析能力的数据集[2]。但同时也指出,所谓的大数据,并不是说其数据集要一定超过特定TB值;⑤IDC(国际数据公司)在发布的报
4、告中将大数据定义为:大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值[2]。 第5种定义中总结了大数据的4V特征: (1)Volume(体量浩大)。在数据爆炸时代,数据单位已无法用传统的TB来衡量,而是用PB、EB或者ZB作为大数据的计量单位。导致数据激增的原因很多,主要是互联网络的广泛使用使人类快速进入信息时代,数据疯狂增长,必然使得数据处理量显著增多。 (2)Variety(类型繁多)。以往的数据尽管体量巨大,但一般都是比较容易处理的结构化数据。当前,随着互联网
5、络与传感器的飞速发展,不仅包含传统的结构化数据,还包括音频、视频、网页、文本等半结构和非结构化数据。11 (3)Velocity(生成快速)。数据量的疯狂增长,使得数据处理的速度加快,这也是大数据区别于以往海量数据处理的重要特征。面临各种信息,如何把握数据的时效性,快速地从各种数据类型中获取高价值的信息,是大数据时代处理的基本要求。 (4)Value(价值巨大但密度很低)。大数据为了获得事物的全部细节,会直接采用原始数据,导致存在大量的无用信息,使得人们获取有用信息的难度加大,就像沙子淘金。 目前,对于大数据的4V
6、定义是目前较为统一的认识。其特有的4种特征使得大数据的概念与以往“海量数据”和“超大规模数据”有着本质区别,除了用来描述数据之“大”,还指出了大数据的意义和必要性,即如何从体量巨大、类型繁多、生成快速的数据集中挖掘价值。 2大数据研究现状 尽管大数据的概念没有一个统一的定论,但并不影响各领域对大数据的研究。国际上,就学术界而言,《Nature》于2008年推出“bigdata”专刊,从互联网技术、超级计算、生物医学等方面对大数据进行了研究[5];《Science》于2011年推出专刊“Dealingwithdata”
7、,讨论了大数据时代所面临的机遇与挑战及大数据研究的重要性[6];欧洲信息学与数学研究协会会刊ERCIMNews于2012年4月推出专刊“BigData”,讨论了大数据时代下关于数据管理、数据密集型研究的创新技术等问题[7]。就IT产业界而言,IBM、Google、亚马逊、Facebook等国际知名企业相继推出了各自的大数据产品,为企业赢得了巨大的经济效益,是大数据的主要推动者。就政府方面,美国于2012年3月公布了旨在提高和改进人们从海量信息数据中获取信息能力的“大数据研发计划”,并认为其是“未来发展的新石油”11[8]
8、。在此之后,英国、日本及欧盟等国家也积极研究和发展大数据并有了相应的战略举措。纵观国际形势,对大数据的研究与应用已成为各国政府和企业的研究重点及重要战略布局方向,在未来世界,竞争核心必将转为大数据的竞争。 客观来讲,国内大数据的研究水平与国外尚存在一定差距。在学术界,香山科学会议在2012年5月组织的主题为“大数据
此文档下载收益归作者所有