欢迎来到天天文库
浏览记录
ID:19731134
大小:140.18 KB
页数:16页
时间:2018-10-05
《读完这100篇论文就能成为大数据高手》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、PayPal高级工程总监:读完这100篇论文就能成大数据高手出处:CSDN开源(OpenSource)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演着非常重要的推动作用。另一方面,开源也给大数据技术构建了一个异常复杂的生态系统。每一天,都有一大堆“新”框架、“新”类库或“新”工具,犹如雨后春笋般涌出,乱花渐欲“迷”人眼。为了掌控住这些“新玩意”,数据分析的达人们不得不“殚精竭虑”地“学而时习之”。无论你是一个大数据的布道者,还是一个日臻成熟的技术派,亦或你还在大数据这条路上“小河才露尖尖角”,多花点时
2、间,深入理解一下大数据系统的技术体系演进,对你都会有莫大益处。全方位地理解大数据体系结构中的各个组件,并掌握它们之间的微妙差别,可在处理自己身边的大数据案例时,助你张弛有度,“恢恢乎,其于游刃必有余地矣!”在过去的几年里,我阅读了很多不错的大数据文献,这些文献陪我成长,助我成功,使我成为一个具备良好教育背景的大数据专业人士。在这里,撰写此文的目的,不限于仅仅和大家分享这些很不错的文献,更重要的是,借此机会,想和大家一起,集众人之智慧,破解大数据开源系统之迷宫。需要提醒的是,下文提及到的100篇参考文献(这些文献中大多都是一些开创性的研究论文),将会为你提供结构性的深度剖析
3、,绝非泛泛而谈。我相信,这可从根本上帮助你深度理解大数据体系组件间的细微差别。但如果你打算“走马观花”般地快速过一遍,了解大数据为何物,对不起,这里可能会让你失望。那么,准备好了吗?让我们走起!在介绍这100篇文献之前,首先让我们看一下大数据处理的关键架构层(如图1所示):关键架构层5.1-9,,services,andmakethecitymoreattractive,strengtheningpublictransportinvestment,establishedasthebackboneoftheurbanrailtransitmulti-level,multi-
4、functionalpublictransportsystem,thusprotectingtheregionalpositionandachieve图1:大数据处理的关键架构层·文件系统层:在这一层里,分布式文件系统需具备存储管理、容错处理、高可扩展性、高可靠性和高可用性等特性。·数据存储层:由于目前采集到的数据,十之有七八为非结构化和半结构化数据,数据的表现形式各异,有文本的、图像的、音频的、视频的等,因此常见的数据存储也要对应有多种形式,有基于键值(Key-Value)的,有基于文档(Document),还有基于列(Column)和图表(Graph)的。如果采用单一
5、的数据库引擎,“一刀切式”的满足所有类型的数据存储需求,通常会严重降低数据库管理的性能。因此,我们需要“兵来将挡,水来土掩”式的、多元的(Polyglot)【1】数据库解决方案(这就好比,如果“兵来了”和“水来了”,都要“将”去挡,遇到“兵”时,“将”可以“酣畅淋漓”,而遇到“水”时,还用“将”去挡,那这个“将”估计就要“舍生取义”了。文献【1】是一本有关NoSQL数据处理的图书)5.1-9,,services,andmakethecitymoreattractive,strengtheningpublictransportinvestment,establishedas
6、thebackboneoftheurbanrailtransitmulti-level,multi-functionalpublictransportsystem,thusprotectingtheregionalpositionandachieve·资源管理层:这一层是为了提高资源的高利用率和吞吐量,以到达高效的资源管理与调度目的。·资源协调层:在本层的系统,需要完成对资源的状态、分布式协调、一致性和资源锁实施管理。·计算框架层:在本层的计算框架非常庞杂,有很多高度专用的框架包含其内,有流式的,交互式的,实时的,批处理和迭代图的(BatchandIterativeGra
7、ph,BSP)等。为这些计算框架提供支撑的是运行时引擎,如BDAS【2】(Spark)和Flink等(注:这里的BDAS是指“BerkeleyDataAnalyticsStack”,即伯克利数据分析栈。文献【2】为Spark核心作者IonStoica的讲座幻灯片文档)。·数据分析层:在这一层里,主要包括数据分析(消费)工具和一些数据处理函数库。这些工具和函数库,可提供描述性的、预测性的或统计性的数据分析功能及机器学习模块。·数据集成层:在这一层里,不仅包括管理数据分析工作流中用到的各种适用工具,除此之外,还包括对元数据(Met
此文档下载收益归作者所有