欢迎来到天天文库
浏览记录
ID:38626108
大小:671.00 KB
页数:51页
时间:2019-06-16
《大数据调查论文翻译》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、一个大数据的调查陈敏、毛诗文、刘云浩摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。关键字大数据云计算物
2、联网数据中心Hadoop智能电网大数据分析1、背景1.1大数据时代的曙光在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。近日,行业产生兴趣的大数据的高
3、潜力,许多政府机构公布主要计划加快大数据的研究和应用[2]。此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],纽约时报[5],和全国公共广播电台[6,7]。这两个主要的科学期刊,Nature和Science,还开通了专栏讨论大数据的挑战和影响[8,9]。大数据的时代已经到来超越一切质疑[10]。目前,与互联网公司的业务相关联的大数据快速增长。例如,谷歌处理的数据达数百拍字节(PB),Facebook的生成日志数据每月有超过10PB,百度一家中国公司百度,业务流程有数十PB的数据,而阿里巴巴的子公司淘宝每天的网上交易产生几十太字节(TB)的数据。图1示出的全球数据量的
4、热潮。当大型数据集的数量急剧上升,它也带来了许多具有挑战性的问题,解决方案如下:图一、持续增长的数据信息技术的最新发展(IT)使其更容易以产生数据。例如,每分钟有平均72个小时的视频上传到YouTube[11]。因此,我们面临的主要挑战是从广泛分布的数据源中收集和整合大量的数据。云计算和物联网(IOT)的快速发展进一步促进数据的大幅增长。云计算提供了安全措施,访问网站以及数据资产的渠道。在物联网的典范,遍布世界各地的传感器正在收集和传送数据到云端进行存储和处理。这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,以及它的实时要求也将极大地强调可用的计
5、算能力。日益增长的数据造成怎样在当前硬件和软件的基础上存储和管理如此庞大的异构数据集的问题。考虑到大数据的异质性,可扩展性,实时性,复杂性和保密性,我们将有效地通过在不同层面分析,建模,可视化和预测,进而“开采”数据集,从而揭示其内在的性能以及完善决策。1.2、大数据的定义和特点大数据是一个抽象的概念。除了大量的数据,它也有一些其他的功能,这决定本身和“海量数据”或之间的差异“很大的数据。”目前,虽然大的数据的重要性已经成为共识,人们仍然对它的定义有不同意见。一般情况下,大数据是指不能由传统IT和软件/硬件工具在允许的时间内处理察觉,获取,管理的数据集。因为不同的关注点,
6、科技企业,研究学者,数据分析,技术从业人员对大数据有不同的定义。以下定义可以帮助我们有一个在更好地理解大数据在社会,经济里的技术内涵。2010年,ApacheHadoop将大数据定义为“大数据是指不能由传统IT和软件/硬件工具在允许的时间内处理察觉,获取,管理的数据集。”在这一定义的基础上,在2011年5月,麦肯锡公司,一个全球咨询机构宣布大数据作为下一个前沿创新,竞争和生产力。大数据系也可指可能用经典数据库软件无法获得、存储、管理的数据集,这个定义包括两个含义:一是数据集“卷符合大数据的标准正在发生变化,可随着时间的推移或技术的进步;其次,数据集“卷顺应大标准在不同的应
7、用数据彼此不同。在目前,大数据一般为几个TB到几PB[10]。从麦肯锡公司的定义,可以看出,一个数据集的体积不是唯一标准大数据。日益增长的数据规模不能由传统的处理,并对其管理数据库技术是接下来的两个关键特性。事实上,早在2001年,META的分析师(现Gartner公司)道格·莱尼通过3VS模型将大数据定义为挑战和机遇。即,增加的数据数量,速度和品种,在研究报告中[12],尽管这种最初不是用模型来定义大数据,未来十年里,Gartner等多家企业,其中包括IBM[13]和微软的[14]研究部门仍然采用的是“3VS”模型来描述大数
此文档下载收益归作者所有