深入浅出spark

深入浅出spark

ID:21301135

大小:2.48 MB

页数:49页

时间:2018-10-21

深入浅出spark_第1页
深入浅出spark_第2页
深入浅出spark_第3页
深入浅出spark_第4页
深入浅出spark_第5页
资源描述:

《深入浅出spark》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、深入浅出Spark2015年8月研究院王凤目录Spark简介核心模块的实现Spark应用Spark与Hadoop的区别与联系Spark总体流程Spark应用库大数据的电花火石Spark简介什么是SparkApacheSpark™isafastandgeneralengineforlarge-scaledataprocessingSpark是UCBerkeleyAMPLab开发的是一种计算框架,分布式资源工作交由集群管理软件(Mesos、YARN)aMapReduce-likeclustercomputingframeworkdesignedforlow-late

2、ncyiterativejobsandinteractiveusefromaninterpreterSpark简介Spark的发展历程Spark代码贡献者每个月的增长曲线2009:Spark诞生于伯克利大学AMPLab2010:开源2013.6:Apache孵化器项目2014.2:Apache顶级项目目前为止,发布的最新版本为Spark1.4.1Spark在最近6年内发展迅速,相较于其他大数据平台或框架而言,Spark的代码库最为活跃。http://spark.apache.org/截止2015年6月Spark的Contributor比2014年涨了3倍,达到7

3、30人;总代码行数也比2014年涨了2倍多,达到40万行Spark应用也越来越广泛,最大的集群来自腾讯——8000个节点,单个Job最大分别是阿里巴巴和Databricks——1PBSpark特点Spark简介LogisticregressioninHadoopandSpark高效提供Cache机制来支持需要反复迭代的计算或者多次数据共享,减少数据读取的IO开销。与Hadoop的MapReduce相比,Spark基于内存的运算比MR要快100倍;而基于硬盘的运算也要快10倍!易用Spark提供广泛的数据集操作类型(20+种),不像Hadoop只提供了Map和Re

4、duce两种操作。Spark支持Java,Python和ScalaAPI,支持交互式的Python和Scala的shell。与Hadoop无缝衔接Spark可以使用YARN作为它的集群管理器读取HDFS,HBase等一切Hadoop的数据先进架构Spark采用Scala语言编写,底层采用了actormodel的akka作为通讯框架,代码十分简洁高效。基于DAG图的执行引擎,减少多次计算之间中间结果写到Hdfs的开销。建立在统一抽象的RDD(分布式内存抽象)之上,使得它可以以基本一致的方式应对不同的大数据处理场景。提供整体解决方案以其RDD模型的强大表现能力,逐渐

5、形成了一套自己的生态圈,提供了full-stack的解决方案。主要包括Spark内存中批处理,SparkSQL交互式查询,SparkStreaming流式计算,GraphX和MLlib提供的常用图计算和机器学习算法。OneStacktorulethemallSpark整体架构Spark简介SparkSQLSparkStreamingGraphX(graph)MLlib(machinelearning)MesosYARNS3SparkStandalone存储层资源调度层计算层工具层CassandraHbase…TachyonHDFSSpark提供了多种高级工具:S

6、harkSQL应用于即席查询(Ad-hocquery)、SparkStreaming应用于流式计算、MLlib应用于机器学习、GraphX应用于图处理。Spark可以基于自带的standalone集群管理器独立运行,也可以部署在ApacheMesos和HadoopYARN等集群管理器上运行。Spark可以访问存储在HDFS、Hbase、Cassandra、AmazonS3、本地文件系统等等上的数据,Spark支持文本文件,序列文件,以及任何Hadoop的InputFormat。目录Spark简介核心模块的实现Spark应用Spark与Hadoop的区别与联系Sp

7、ark总体流程Spark应用库Spark组件DriverProgram(驱动程序)是Spark的核心组件构建SparkContext(Spark应用的入口,它负责和整个集群的交互,创建需要的变量,还包含集群的配置信息等)将用户提交的job转换为DAG图(类似数据处理的流程图)根据策略将DAG图划分为多个stage,根据分区从而生成一系列tasks根据tasks要求向资源管理器申请资源提交任务并检测任务状态Executor真正执行task的单元,一个WorkerNode上可以有多个ExecutorSpark任务应用程序:由一个driverprogram和多个job

8、构成;job:由多个st

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。