欢迎来到天天文库
浏览记录
ID:44446878
大小:50.50 KB
页数:7页
时间:2019-10-22
《Spark项目实战培训课件大纲》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、Spark项目实战培训大纲第1章Spark的设计与运行原理1、概述2、Spark生态系统3、Spark运行架构丄基本概念丄架构设计4Spark运行基本流程丄RDD的设计与运行原理4、Spark的部署方式5、Spark和Hadoop的交互6、在spark-shell中运行代码4spark-shell命令丄启动spark-shell7、开发Spark独立应用程序4安装编译打包工具丄编写Spark应用程序代码丄编译打包丄通过spark-submit运行程序8、Spark集群环境搭建丄集群概况I集群部署方案9、在集群上运行Spark应用程序丄启动Spa
2、rk集群4采用独立集群管理器亠采用HadoopYARN管理器第2章RDD编程实战1、RDD编程基础IRDD创建£RDD操作丄持久化丄分区4一个综合实例2、键值对RDD丄键值对RDD的创建4常用的键值对转换操作3、数据读写丄文件数据读写I读写HBase数据4、综合实例求TOP值丄文件排序4二次排序第3章SparkSQL实战1、SparkSQL简介£Shark功能丄SparkSQL架构丄为什么推出SparkSQL2、DataFrame概述3、DataFrame的创建4、DataFrame的保存5、DataFrame的常用操作6、从RDD转换得到Da
3、taFrame丄利用反射机制推断RDD模式丄使用编程方式定义RDD模式7、使用SparkSQL读写数据库4通过JDBC连接数据库丄连接Hive读写数据第4章SparkStreaming实战1、流计算概述I静态数据和流数据丄批量计算和实时计算I流计算概念亠流计算框架丄流计算处理流程2、SparkStreaming丄SparkStreaming设计4SparkStreaming与Storm的对比丄Hadoop+Storm”架构转向Spark架构3、DStream操作概述4-SparkStreaming工作机制丄编写SparkStreaming程序的
4、基本步骤*创建Streamingcontext对象4、基本输入源4文件流IRDD队列流5、高级数据源丄Kafka简介丄Kafka准备工作丄Spark准备工作编写SparkStreaming程序使用Kafka数据源第6章SparkMllib实战1、基于大数据的机器学习2、Spark机器学习库MLlib概述3、机器学习流水线丄流水线的概念亠流水线工作过程4、特征提取、转换和选择丄特征提取丄特征转换I特征选择丄局部敏感哈希5、分类算法丄逻辑回归分类器丄决策树分类器6、聚类算法丄K-Means聚类算法4GMM聚类算法8、协同过滤算法第7章Spark监控
5、和优化1、SparkUI丄监控界面丄标签类型I各个界面用途、界面各个元素含义丄执行计划图4异常分析2、常见优化分析丄框架配置优化4应用配置优化丄Rdd初始分区数丄sparksql的调优4-sparkstream的调优£shuffle的关注3、问题关注点丄多表关联丄多数据集处理丄Spark可选可视化方案亠Spark内存调度丄Spark垃圾回收
此文档下载收益归作者所有