Spark项目实战培训课件大纲

Spark项目实战培训课件大纲

ID:44446878

大小:50.50 KB

页数:7页

时间:2019-10-22

Spark项目实战培训课件大纲_第1页
Spark项目实战培训课件大纲_第2页
Spark项目实战培训课件大纲_第3页
Spark项目实战培训课件大纲_第4页
Spark项目实战培训课件大纲_第5页
资源描述:

《Spark项目实战培训课件大纲》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Spark项目实战培训大纲第1章Spark的设计与运行原理1、概述2、Spark生态系统3、Spark运行架构丄基本概念丄架构设计4Spark运行基本流程丄RDD的设计与运行原理4、Spark的部署方式5、Spark和Hadoop的交互6、在spark-shell中运行代码4spark-shell命令丄启动spark-shell7、开发Spark独立应用程序4安装编译打包工具丄编写Spark应用程序代码丄编译打包丄通过spark-submit运行程序8、Spark集群环境搭建丄集群概况I集群部署方案9、在集群上运行Spark应用程序丄启动Spa

2、rk集群4采用独立集群管理器亠采用HadoopYARN管理器第2章RDD编程实战1、RDD编程基础IRDD创建£RDD操作丄持久化丄分区4一个综合实例2、键值对RDD丄键值对RDD的创建4常用的键值对转换操作3、数据读写丄文件数据读写I读写HBase数据4、综合实例求TOP值丄文件排序4二次排序第3章SparkSQL实战1、SparkSQL简介£Shark功能丄SparkSQL架构丄为什么推出SparkSQL2、DataFrame概述3、DataFrame的创建4、DataFrame的保存5、DataFrame的常用操作6、从RDD转换得到Da

3、taFrame丄利用反射机制推断RDD模式丄使用编程方式定义RDD模式7、使用SparkSQL读写数据库4通过JDBC连接数据库丄连接Hive读写数据第4章SparkStreaming实战1、流计算概述I静态数据和流数据丄批量计算和实时计算I流计算概念亠流计算框架丄流计算处理流程2、SparkStreaming丄SparkStreaming设计4SparkStreaming与Storm的对比丄Hadoop+Storm”架构转向Spark架构3、DStream操作概述4-SparkStreaming工作机制丄编写SparkStreaming程序的

4、基本步骤*创建Streamingcontext对象4、基本输入源4文件流IRDD队列流5、高级数据源丄Kafka简介丄Kafka准备工作丄Spark准备工作编写SparkStreaming程序使用Kafka数据源第6章SparkMllib实战1、基于大数据的机器学习2、Spark机器学习库MLlib概述3、机器学习流水线丄流水线的概念亠流水线工作过程4、特征提取、转换和选择丄特征提取丄特征转换I特征选择丄局部敏感哈希5、分类算法丄逻辑回归分类器丄决策树分类器6、聚类算法丄K-Means聚类算法4GMM聚类算法8、协同过滤算法第7章Spark监控

5、和优化1、SparkUI丄监控界面丄标签类型I各个界面用途、界面各个元素含义丄执行计划图4异常分析2、常见优化分析丄框架配置优化4应用配置优化丄Rdd初始分区数丄sparksql的调优4-sparkstream的调优£shuffle的关注3、问题关注点丄多表关联丄多数据集处理丄Spark可选可视化方案亠Spark内存调度丄Spark垃圾回收

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。