欢迎来到天天文库
浏览记录
ID:11435614
大小:4.04 MB
页数:20页
时间:2018-07-12
《主流大数据计算引擎对比分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、主流大数据引擎对比分析分布式批处理计算引擎介绍分布式流处理计算引擎介绍提纲MapReduce应用场景MapReduce基于Google发布的分布式计算框架MapReduce论文设计开发,用于大规模数据集(大于1TB)的并行运算,特点如下:-易于编程:程序员仅需描述做什么,具体怎么做就交由系统的执行框架处理。-良好的扩展性:可以添加机器扩展集群能力。-高容错性:通过计算迁移或数据迁移等策略提高集群的可用性与容错性。MapReduce原理MapReduce原理MapReduce应用场景MapRedcue适合做什么?大规模数据集的离线批处理计算任务
2、分而治之,子任务相对独立MapRedcue不适合做什么?实时的交互式计算,要求快速响应,低延迟,比如SQL查询流式计算、实时分析,比如广告点击计算等任务之间相互依赖(迭代计算)谁在使用MapReduce?HIVE-基于MapReduce的OLAP引擎Spark应用场景是什么-Spark系统是分布式批处理系统和分析挖掘引擎。-Spark是AMPLAB贡献到Apache社区的开源项目,是AMP大数据栈的基础组件。做什么-数据处理(DataProcessing):可以用来快速处理数据,兼具容错性和可扩展性。-迭代计算(IterativeComput
3、ation):支持迭代计算,有效应对多步的数据处理逻辑。Spark应用场景大多数现有集群计算框架如Hadoop等基于从稳定存储(文件系统)到稳定存储的非循环数据流---应对数据集重用型应用时低效,与传统的MR任务的频繁读写磁盘数据相比,基于内存计算的Spark则更适合应用与迭代计算,交互式分析等场景Spark核心概念–RDD定义:只读的,可分区的分布式数据集;容错:根据依赖关系重计算恢复丢失数据RDD操作:Transformation算子和Action算子。Spark核心概念–宽依赖和窄依赖RDD父子依赖关系:窄(Narrow)依赖和宽(Wi
4、de)依赖。窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用。宽依赖指子RDD的分区依赖于父RDD的所有分区。SparkSQL-Spark生态圈的查询引擎分布式批处理计算引擎介绍分布式流处理计算引擎介绍提纲Storm可以对大量的数据流进行可靠的实时处理,这一过程也称为“流式处理”;Storm支持多种类型的应用,包括:实时分析、在线机器学习、连续计算、分布式RPC(DRPC)、ETL等;快速的数据处理、可扩展性与容错性;STORM应用场景STROM原理基于STROM的情感分析相对于Storm,SparkStreaming支持更的大吞吐量
5、;基于Spark内核的迭代计算,SparkStreaming是准实时处理;良好的容错性和故障恢复能力;SPARKStreaming应用场景SparkStreaming原理流入的记录以短时批处理的方式进行计算,每一个批次转化成一个RDDSTORM流处理应用
此文档下载收益归作者所有