Spark大数据处理:技术、应用与性能优化(全)

Spark大数据处理:技术、应用与性能优化(全)

ID:18440486

大小:7.10 MB

页数:397页

时间:2018-09-18

Spark大数据处理:技术、应用与性能优化(全)_第1页
Spark大数据处理:技术、应用与性能优化(全)_第2页
Spark大数据处理:技术、应用与性能优化(全)_第3页
Spark大数据处理:技术、应用与性能优化(全)_第4页
Spark大数据处理:技术、应用与性能优化(全)_第5页
资源描述:

《Spark大数据处理:技术、应用与性能优化(全)》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据技术丛书Spark大数据处理:技术、应用与性能优化高彦杰著ISBN:978-7-111-48386-1本书纸版由机械工业出版社于2014年出版,电子版由华章分社(北京华章图文信息有限公司,北京奥维博世图书发行有限公司)全球范围内制作与发行。版权所有,侵权必究客服热线:+86-10-68995265客服信箱:service@bbbvip.com官方网址:www.hzmedia.com.cn新浪微博@研发书局腾讯微博@yanfabook目录前言第1章Spark简介1.1Spark是什么1.2Sp

2、ark生态系统BDAS1.3Spark架构1.4Spark分布式架构与单机多核架构的异同1.5Spark的企业级应用1.5.1Spark在Amazon中的应用1.5.2Spark在Yahoo!的应用1.5.3Spark在西班牙电信的应用1.5.4Spark在淘宝的应用1.6本章小结第2章Spark集群的安装与部署2.1Spark的安装与部署2.1.1在Linux集群上安装与配置Spark2.1.2在Windows上安装与配置Spark2.2Spark集群初试2.3本章小结第3章Spark计算模型3

3、.1Spark程序模型3.2弹性分布式数据集3.2.1RDD简介3.2.2RDD与分布式共享内存的异同3.2.3Spark的数据存储3.3Spark算子分类及功能3.3.1Value型Transformation算子3.3.2Key-Value型Transformation算子3.3.3Actions算子3.4本章小结第4章Spark工作机制详解4.1Spark应用执行机制4.1.1Spark执行机制总览4.1.2Spark应用的概念4.1.3应用提交与执行方式4.2Spark调度与任务分配模块4

4、.2.1Spark应用程序之间的调度4.2.2Spark应用程序内Job的调度4.2.3Stage和TaskSetManager调度方式4.2.4Task调度4.3SparkI/O机制4.3.1序列化4.3.2压缩4.3.3Spark块管理4.4Spark通信模块4.4.1通信框架AKKA4.4.2Client、Master和Worker间的通信4.5容错机制4.5.1Lineage机制4.5.2Checkpoint机制4.6Shuffle机制4.7本章小结第5章Spark开发环境配置及流程5.1

5、Spark应用开发环境配置5.1.1使用Intellij开发Spark程序5.1.2使用Eclipse开发Spark程序5.1.3使用SBT构建Spark程序5.1.4使用SparkShell开发运行Spark程序5.2远程调试Spark程序5.3Spark编译5.4配置Spark源码阅读环境5.5本章小结第6章Spark编程实战6.1WordCount6.2TopK6.3中位数6.4倒排索引6.5CountOnce6.6倾斜连接6.7股票趋势预测6.8本章小结第7章Benchmark使用详解7.

6、1Benchmark简介7.1.1IntelHibench与BerkeleyBigDataBench7.1.2HadoopGridMix7.1.3Bigbench、BigDataBenchmark与TPC-DS7.1.4其他Benchmark7.2Benchmark的组成7.2.1数据集7.2.2工作负载7.2.3度量指标7.3Benchmark的使用7.3.1使用Hibench7.3.2使用TPC-DS7.3.3使用BigDataBench7.4本章小结第8章BDAS简介8.1SQLonSpar

7、k8.1.1使用SparkSQL的原因8.1.2SparkSQL架构分析8.1.3Shark简介8.1.4HiveonSpark8.1.5未来展望8.2SparkStreaming8.2.1SparkStreaming简介8.2.2SparkStreaming架构8.2.3SparkStreaming原理剖析8.2.4SparkStreaming调优8.2.5SparkStreaming实例8.3GraphX8.3.1GraphX简介8.3.2GraphX的使用8.3.3GraphX架构8.3.4

8、运行实例8.4MLlib8.4.1MLlib简介8.4.2MLlib的数据存储8.4.3数据转换为向量(向量空间模型VSM)8.4.4MLlib中的聚类和分类8.4.5算法应用实例8.4.6利用MLlib进行电影推荐8.5本章小结第9章Spark性能调优9.1配置参数9.2调优技巧9.2.1调度与分区优化9.2.2内存存储优化9.2.3网络传输优化9.2.4序列化与压缩9.2.5其他优化方法9.3本章小结前言Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台,它立

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。