欢迎来到天天文库
浏览记录
ID:39010469
大小:3.05 MB
页数:48页
时间:2019-06-23
《Spark概述星赟(徐波)x》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Spark概述星赟(徐波)07九月2021Spark概述为什么会出现Spark?Spark是什么?Spark能做什么?一.为什么会出现Spark?MapReduce等系统建立在非迭代型数据流模型上,这不适合当前很多流行的应用中间结果保存在HDFS上,IO开销大Hadoop提供的操作简单,表达能力欠缺,复杂计算实现难度大时延高,只适合批处理计算,实时数据处理支持不够iter.1iter.2...InputHDFSreadHDFSwriteHDFSreadHDFSwriteiter.1iter.2...Input二.Spark是什么?(1)S
2、park的定义:ApacheSparkisafastandgeneralengineforlarge-scaledataprocessing2009年AMPLab启动Spark项目2013年6月成为Apache孵化项目2014年2月成为Apache顶级项目7.26发布Spark2.0,900+二.Spark是什么?(2)Spark的主要特点①速度快:比Hadoop快10-110X二.Spark是什么?(2)Spark的主要特点②容易使用:多语言:Java,Scala,Python,R.易部署交互式操作多二.Spark是什么?(2)Spark的主要
3、特点③通用性SparkSQLSparkStreamingMllibGraphXSparkR二.Spark是什么?(2)Spark的主要特点④RunsEverywhere可以运行在:Hadoop,Mesos,standalone,orinthecloud支持多数据源:HDFS,HBase,S3,andCassandra二.Spark是什么?(3)Spark的架构与运行机制①RDD:定义RDD(ResilientDistributedDataset,弹性分布式数据集)RDD是Spark操纵数据的一个高度抽象,即Spark所操作的数据集都是包装成RDD
4、来进行操作的二.Spark是什么?(3)Spark的架构与运行机制①RDD:定义RDDpartition分区分区分区分区RDD:分布式存储分布式弹性的,可以repartition只读的不支持细粒度的操作二.Spark是什么?(3)Spark的架构与运行机制①RDD:生成从文件生成:文本、HDFS、Alluxio等从scala中生成:Array从其他RDD转换RDDFRDDMRDDfiltermapURDDunionGRDD3GRDD2GRDD1groupByKeystagestage二.Spark是什么?(3)Spark的架构与运行机制①RDD:
5、依赖关系二.Spark是什么?(3)Spark的架构与运行机制①RDD:数据空间二.Spark是什么?(3)Spark的架构与运行机制①RDD:LineagePersistCheckpoint减少备份二.Spark是什么?(3)Spark的架构与运行机制②Spark架构DeploymodeClientCluster运行在JVM上二.Spark是什么?(3)Spark的架构与运行机制②Spark架构ClustermanagerStandaloneYarnMesosSparkOnYarnTRANSWARP©2014ResourceManagerNod
6、eManagerExecutorExecutorApp1SparkContextApplicationMasterJob1Job2NodeManagerExecutorExecutorNodeManagerExecutorExecutorNodeManagerExecutorExecutorApp2SparkContextApplicationMasterJob3Job4SparkOnYarnTRANSWARP©2014ResourceManagerNodeManagerExecutorExecutorApp1SparkContextApplic
7、ationMasterJob1Job2NodeManagerExecutorExecutorNodeManagerExecutorExecutorNodeManagerExecutorExecutorApp2SparkContextApplicationMasterJob3Job4可以与其他框架更好的兼容二.Spark是什么?(3)Spark的架构与运行机制③运行机制三.Spark能做什么?WordCount实例WordCountWordCountWordCountSparkStreaming27PortFolderSparkStreaming2
8、8Dstreams:离散流准实时WordCountSparkStreaming29SparkSQL特点:整合:Spark程序中可以查询结
此文档下载收益归作者所有