深入浅出spark

ID：21301135

大小：2.48 MB

页数：49页

时间：2018-10-21

资源描述：

《深入浅出spark》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、深入浅出Spark2015年8月研究院王凤目录Spark简介核心模块的实现Spark应用Spark与Hadoop的区别与联系Spark总体流程Spark应用库大数据的电花火石Spark简介什么是SparkApacheSpark™isafastandgeneralengineforlarge-scaledataprocessingSpark是UCBerkeleyAMPLab开发的是一种计算框架，分布式资源工作交由集群管理软件（Mesos、YARN）aMapReduce-likeclustercomputingframeworkdesignedforlow-late

2、ncyiterativejobsandinteractiveusefromaninterpreterSpark简介Spark的发展历程Spark代码贡献者每个月的增长曲线2009：Spark诞生于伯克利大学AMPLab2010：开源2013.6：Apache孵化器项目2014.2：Apache顶级项目目前为止，发布的最新版本为Spark1.4.1Spark在最近6年内发展迅速，相较于其他大数据平台或框架而言，Spark的代码库最为活跃。http://spark.apache.org/截止2015年6月Spark的Contributor比2014年涨了3倍，达到7

3、30人；总代码行数也比2014年涨了2倍多，达到40万行Spark应用也越来越广泛，最大的集群来自腾讯——8000个节点，单个Job最大分别是阿里巴巴和Databricks——1PBSpark特点Spark简介LogisticregressioninHadoopandSpark高效提供Cache机制来支持需要反复迭代的计算或者多次数据共享，减少数据读取的IO开销。与Hadoop的MapReduce相比，Spark基于内存的运算比MR要快100倍；而基于硬盘的运算也要快10倍！易用Spark提供广泛的数据集操作类型（20+种），不像Hadoop只提供了Map和Re

4、duce两种操作。Spark支持Java，Python和ScalaAPI，支持交互式的Python和Scala的shell。与Hadoop无缝衔接Spark可以使用YARN作为它的集群管理器读取HDFS,HBase等一切Hadoop的数据先进架构Spark采用Scala语言编写，底层采用了actormodel的akka作为通讯框架，代码十分简洁高效。基于DAG图的执行引擎，减少多次计算之间中间结果写到Hdfs的开销。建立在统一抽象的RDD（分布式内存抽象）之上,使得它可以以基本一致的方式应对不同的大数据处理场景。提供整体解决方案以其RDD模型的强大表现能力，逐渐

5、形成了一套自己的生态圈，提供了full-stack的解决方案。主要包括Spark内存中批处理，SparkSQL交互式查询，SparkStreaming流式计算，GraphX和MLlib提供的常用图计算和机器学习算法。OneStacktorulethemallSpark整体架构Spark简介SparkSQLSparkStreamingGraphX(graph)MLlib(machinelearning)MesosYARNS3SparkStandalone存储层资源调度层计算层工具层CassandraHbase…TachyonHDFSSpark提供了多种高级工具：S

6、harkSQL应用于即席查询（Ad-hocquery）、SparkStreaming应用于流式计算、MLlib应用于机器学习、GraphX应用于图处理。Spark可以基于自带的standalone集群管理器独立运行，也可以部署在ApacheMesos和HadoopYARN等集群管理器上运行。Spark可以访问存储在HDFS、Hbase、Cassandra、AmazonS3、本地文件系统等等上的数据，Spark支持文本文件，序列文件，以及任何Hadoop的InputFormat。目录Spark简介核心模块的实现Spark应用Spark与Hadoop的区别与联系Sp

7、ark总体流程Spark应用库Spark组件DriverProgram(驱动程序)是Spark的核心组件构建SparkContext(Spark应用的入口,它负责和整个集群的交互，创建需要的变量，还包含集群的配置信息等)将用户提交的job转换为DAG图(类似数据处理的流程图)根据策略将DAG图划分为多个stage，根据分区从而生成一系列tasks根据tasks要求向资源管理器申请资源提交任务并检测任务状态Executor真正执行task的单元，一个WorkerNode上可以有多个ExecutorSpark任务应用程序：由一个driverprogram和多个job

8、构成；job：由多个st

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 49



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

深入浅出spark

深入浅出spark

相关文章

相关标签