spark大数据处理引擎(初级)

spark大数据处理引擎(初级)

ID:39984843

大小:1.79 MB

页数:36页

时间:2019-07-16

spark大数据处理引擎(初级)_第1页
spark大数据处理引擎(初级)_第2页
spark大数据处理引擎(初级)_第3页
spark大数据处理引擎(初级)_第4页
spark大数据处理引擎(初级)_第5页
资源描述:

《spark大数据处理引擎(初级)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、云软件组陈修恒SPARK大数据处理引擎Spark一、ApacheSpark项目三、Spark技术架构四、Spark核心技术五、部署方式六、运行流程七、配置要求Hadoop生态系统Ambari(安装、部署、配置和管理工具)zookeeper分布式协作服务HBase(实时分布式数据库)Hive(数据仓库)Pig(数据流处理)Mahout(数据挖掘库)MapReduce(分布式计算框架)HDFS(分布式文件系统)Flume(日志收集工具)Sqoop(数据库ETL工具)ApacheHadoop项目CommonHDFS一个部署在廉价的机器上、具有高度容错性的文件系统YARN资源调度引擎M

2、apReduce基于YARN调度引擎的大数据并行处理系统AYARN-basedsystemforparallelprocessingoflargedatasets.ApachSpark项目Spark是一个快速通用的大规模数据处理框架。具有Hadoop的批处理能力,而且性能更佳。可以用于流处理、Sql统计、机器学习和图计算。ApachSpark项目ApacheSparkTMisafastandgeneralengineforlarge-scaledataprocessingApacheSparkTM是一个快速、通用的大数据处理引擎ApacheSparkTM是HadoopMapRe

3、duce的改进版SparkVSHadoopMapReduceSparkHadoopMapRecuce架构Spark+RDDRDD:由Spark内部维护的、基于内存的分布式数据集MapReduce+HDFSHDFS:分布式文件系统工作量面向函数编程需要提供Map/Reduce函数。面向对象编程需要提供Map/Reduce类。数据处理RDD保存Map操作的结果,支持多次Map迭代。Map计算懒加载,用到时才发生计算Map、Reduce成对出现。Reduce结果落地后才能被下次Map使用故障处理多主多备集成HDFS不会有数据丢失,其他情况会有丢失情况;standalone启动模式Dr

4、iver节点不能自动恢复,任务需要重新提交;依赖HDFS能快速恢复计算节点Spark技术架构Kafka/HDFS/TCP/Flume/ZeroMQ/MQTT/TwiterSparkRDDMapReduce函数式编程接口AmazonEC2/Mesos/YARN由Scala编写,支持函数式编程。支持多种数据源接入。RDD-弹性分布式数据集,Spark将数据分布到多台机器的内存中进行并行计算。Spark不具备集群管理能力,需要别的软件进行管理。支持流式运算,可以从kafka等数据源不断的获取数据,并按时间切片处理。Spark核心技术MapReduce编程模型SparkRDDSpark

5、运行流程SparkTransformation&ActionSparkShuffleSparkStreamingSparkSQLSparkMllibSparkGraphXMapReduce编程模型任何运算都可以分解成"Map(映射)"和"Reduce(归约)"两类操作MapReduce编程模型词频统计tobeornottobeto:2be:2or:1not:1统计算法tobeornottobeMapReduce编程模型示例:词频统计to,be,or,not,to,be数据切割,,,,,构造运算单元

6、2>,,,发生计算ReduceMapMapReduce代码预览to,be,or,not,to,be,,,,,,,,tobeornottobe输出结果MapReduce编程模型海量数据结算结果数据划分中间结果mapmapmapmap……(k1,val)(k2,val)(k2,val)(k1,val)(k2,val)(k3,val)(k1,val)(k2,val)(k3,val)aggregation&shufflered

7、ucereducereduce(k1,values)(k2,values)(k3,values)(K1,val)(K3,val)(K2,val)MapReduce编程模型任何运算都可以分解成"Map(映射)"和"Reduce(归约)"两类操作MapReduce编程模型任何运算都可以分解成"Map(映射)"和"Reduce(归约)"两类操作MapReduce系统数据划分和计算任务调度出错检测和恢复数据/代码互定位系统优化MapReduce的实现GoogleMapReduceHadoopMapR

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。