Spark概述星赟(徐波)x

Spark概述星赟(徐波)x

ID:39010469

大小:3.05 MB

页数:48页

时间:2019-06-23

Spark概述星赟(徐波)x_第1页
Spark概述星赟(徐波)x_第2页
Spark概述星赟(徐波)x_第3页
Spark概述星赟(徐波)x_第4页
Spark概述星赟(徐波)x_第5页
资源描述:

《Spark概述星赟(徐波)x》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Spark概述星赟(徐波)07九月2021Spark概述为什么会出现Spark?Spark是什么?Spark能做什么?一.为什么会出现Spark?MapReduce等系统建立在非迭代型数据流模型上,这不适合当前很多流行的应用中间结果保存在HDFS上,IO开销大Hadoop提供的操作简单,表达能力欠缺,复杂计算实现难度大时延高,只适合批处理计算,实时数据处理支持不够iter.1iter.2...InputHDFS readHDFS writeHDFS readHDFS writeiter.1iter.2...Input二.Spark是什么?(1)S

2、park的定义:ApacheSparkisafastandgeneralengineforlarge-scaledataprocessing2009年AMPLab启动Spark项目2013年6月成为Apache孵化项目2014年2月成为Apache顶级项目7.26发布Spark2.0,900+二.Spark是什么?(2)Spark的主要特点①速度快:比Hadoop快10-110X二.Spark是什么?(2)Spark的主要特点②容易使用:多语言:Java,Scala,Python,R.易部署交互式操作多二.Spark是什么?(2)Spark的主要

3、特点③通用性SparkSQLSparkStreamingMllibGraphXSparkR二.Spark是什么?(2)Spark的主要特点④RunsEverywhere可以运行在:Hadoop,Mesos,standalone,orinthecloud支持多数据源:HDFS,HBase,S3,andCassandra二.Spark是什么?(3)Spark的架构与运行机制①RDD:定义RDD(ResilientDistributedDataset,弹性分布式数据集)RDD是Spark操纵数据的一个高度抽象,即Spark所操作的数据集都是包装成RDD

4、来进行操作的二.Spark是什么?(3)Spark的架构与运行机制①RDD:定义RDDpartition分区分区分区分区RDD:分布式存储分布式弹性的,可以repartition只读的不支持细粒度的操作二.Spark是什么?(3)Spark的架构与运行机制①RDD:生成从文件生成:文本、HDFS、Alluxio等从scala中生成:Array从其他RDD转换RDDFRDDMRDDfiltermapURDDunionGRDD3GRDD2GRDD1groupByKeystagestage二.Spark是什么?(3)Spark的架构与运行机制①RDD:

5、依赖关系二.Spark是什么?(3)Spark的架构与运行机制①RDD:数据空间二.Spark是什么?(3)Spark的架构与运行机制①RDD:LineagePersistCheckpoint减少备份二.Spark是什么?(3)Spark的架构与运行机制②Spark架构DeploymodeClientCluster运行在JVM上二.Spark是什么?(3)Spark的架构与运行机制②Spark架构ClustermanagerStandaloneYarnMesosSparkOnYarnTRANSWARP©2014ResourceManagerNod

6、eManagerExecutorExecutorApp1SparkContextApplicationMasterJob1Job2NodeManagerExecutorExecutorNodeManagerExecutorExecutorNodeManagerExecutorExecutorApp2SparkContextApplicationMasterJob3Job4SparkOnYarnTRANSWARP©2014ResourceManagerNodeManagerExecutorExecutorApp1SparkContextApplic

7、ationMasterJob1Job2NodeManagerExecutorExecutorNodeManagerExecutorExecutorNodeManagerExecutorExecutorApp2SparkContextApplicationMasterJob3Job4可以与其他框架更好的兼容二.Spark是什么?(3)Spark的架构与运行机制③运行机制三.Spark能做什么?WordCount实例WordCountWordCountWordCountSparkStreaming27PortFolderSparkStreaming2

8、8Dstreams:离散流准实时WordCountSparkStreaming29SparkSQL特点:整合:Spark程序中可以查询结

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。