海量数据处理方案

海量数据处理方案

ID:2158335

大小:253.34 KB

页数:18页

时间:2017-11-14

海量数据处理方案_第1页
海量数据处理方案_第2页
海量数据处理方案_第3页
海量数据处理方案_第4页
海量数据处理方案_第5页
资源描述:

《海量数据处理方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、海量数据处理方案1 背景我们生活在一个数据时代:(1)每天有10TB的视频数据被上传到世界上最大的视频分享网站Youtube上。(2)美国的纽约证劵交易所每天大约产生1TB的交易数据。(3)中国深圳市拥有20万个交通监控摄像头,每天产生的数据大于1PB。(4)瑞士日内瓦附近的大型强子对撞机,每年大约产生15PB的数据。……已经很难衡量现今的社会中存储的电子数据总量,但是据IDC(InternetDataCenter)估计,2006年“数字全球”项目(digitaluniverse)的数据总量为0.18

2、ZB,并且预测到2011年这个数字将达到1.8ZB,为2006年的10倍。1ZB相当于10的21次方字节,或者相当于1000EB、1000000PB,或者大家更为熟悉的10亿TB。这相当于世界上每个人一个磁盘驱动器的数量级[1]。如图1所示[2],股票交易、商品零售、交通、通信、生产、Web、音像业等多数据源使得数据类型复杂化,包括有结构、无结构(文本、图像、音频、视频等)数据。数据本身也越来越趋于复杂化、高维化。图1海量数据及其复杂类型技术的进步已经使得数据存储变得相对便宜,带宽相对充足,导致了这

3、一系列的海量数据被存储下来,继而在大数据集上的建模和仿真。这样的大数据存储普遍存在于一个多样化的应用领域中,包括科学研究(生物信息,气候变化)。从这样海量数据中提取珍贵知识的挑战,随着多类型数据、多数据源、多种多样的规模,越来越使人变得畏缩,更不要提最终目标是去实时处理。有句话说得好:“算法再好,通常也难敌更多的数据。”意思就是说对于某些问题(譬如基于既往偏好生成的电影和音乐推荐),不论你的算法有多厉害,它们总会在更多的数据面前变得无能为力(更不用说没有优化过的算法)。为了剖析与研究问题,科学与技术目

4、标可归为下面主要的三种:管理数据爆炸性、从海量数据中提取知识、归纳数据使得人类易于理解和反应。如图2所示①。图2海量数据的处理过程那么何为海量数据呢?目前还没有一个统一的定义。Joy[3]指出,令单个计算节点无法完成存储和处理的数据,即可称为海量数据。显然,“海量”是一个动态的概率,它随着单机计算能力的提升和算法的改进而改变。本文认为,目前称作海量的数据应具有以下特性:(1)数据量大:通常达到TB级的数据。(2)数据类型复杂:面对的海量数据常常不是单一类型的数据——字符数据、文本数据、多媒体数据,甚

5、至是源源不断的数据流等。(3)多模态数据:对于一个事物,得到的数据可能是通过不同的方式或角度收集到的,如多模态的视频数据,包括字幕、音频和图像等模态。处理这类数据时,需要将多种模态结合起来。2 挑战与解决方法面临如此海量的数据,首先摆在眼前的问题就是:这种数据的大小已经超出了单个机器的负载能力。利用机器集群和并行化技术,是解决问题的一个有效途径。以下几种方法是近几年比较热门的方法。2.1高性能计算从广义上讲,高性能计算(HPC,HighPerformanceComputing)是将作业分配给一个机

6、器集群,这些机器访问共享文件系统,由一个存储区网络(SAN,StorageAreaNetwork)进行管理,非常适用于以计算密集型为主的作业。但当节点需要访问的数据流很大时(比如数百GB的数据),就会产生一个问题:因为网络带宽成为“瓶颈”,所以计算节点闲置下来。[1]这种计算,主要是指应用于科学与工程的、以高性能计算机为平台的大规模并行计算。它已成为一项学①http://dicomputing.pnl.gov/articles/t/h/e/The_Initiative_04bb.html科——大规模科

7、学与工程计算。而大规模并行计算也已成为研究科学与工程技术的一种新的手段和方式;采用这种手段和方式的科学研究与工程技术研究设计,称为“计算方式的科学与工程”(ComputationalScienceandEngineering)。例如,著名的波音777飞机的设计,基本上是依靠高性能计算机的“无纸设计”,它可以大量节省传统设计技术中的昂贵的风洞实验,设计时间也大大缩短。[3]高性能计算为平台的大规模并行计算,在我国也取得很大的成果,并且有力地推动交叉学科的发展。在清华大学研制的THNPSC-1和THNPS

8、C-2,以及在上海大学研制的“自强2000”等高性能计算机平台上,已有很多实际经验。如与化学专家进行的“高分子链”的研究计算,与化工专家进行的“石油化工超临界化学反应”的研究计算,与机械铸工专家进行的“模具冲模流体场”研究计算。[4]目前,国内外在高性能计算机系统中,最广泛使用的并行编程环境是MPI(MessagePassingInterface),它已成为国际上的一种并行程序的标准。MPI具有移植性好、功能强大、效率高等多种优点,而且有多重不同的免费、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。