欢迎来到天天文库
浏览记录
ID:23537371
大小:2.18 MB
页数:143页
时间:2018-11-08
《spark编程指南中文.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、TableofContentsIntroduction1.1快速上手1.2SparkShell1.2.1独立应用程序1.2.2开始翻滚吧!1.2.3编程指南1.3引入Spark1.3.1初始化Spark1.3.2SparkRDDs1.3.3并行集合1.3.3.1外部数据集1.3.3.2RDD操作1.3.3.3传递函数到Spark1.3.3.3.1使用键值对1.3.3.3.2Transformations1.3.3.3.3Actions1.3.3.3.4RDD持久化1.3.3.4共享变量1.3.4
2、从这里开始1.3.5SparkStreaming1.4一个快速的例子1.4.1基本概念1.4.2关联1.4.2.1初始化StreamingContext1.4.2.2离散流1.4.2.3输入DStreams1.4.2.4DStream中的转换1.4.2.5DStream的输出操作1.4.2.6缓存或持久化1.4.2.7Checkpointing1.4.2.81部署应用程序1.4.2.9监控应用程序1.4.2.10性能调优1.4.3减少批数据的执行时间1.4.3.1设置正确的批容量1.4.3.2内
3、存调优1.4.3.3容错语义1.4.4SparkSQL1.5开始1.5.1数据源1.5.2RDDs1.5.2.1parquet文件1.5.2.2JSON数据集1.5.2.3Hive表1.5.2.4性能调优1.5.3其它SQL接口1.5.4编写语言集成(Language-Integrated)的相关查询1.5.5SparkSQL数据类型1.5.6GraphX编程指南1.6开始1.6.1属性图1.6.2图操作符1.6.3PregelAPI1.6.4图构造者1.6.5顶点和边RDDs1.6.6图算法1
4、.6.7例子1.6.8部署1.7提交应用程序1.7.1独立运行Spark1.7.2在yarn上运行Spark1.7.3更多文档1.8Spark配置1.8.1性能调优1.8.223IntroductionSpark编程指南简体中文版Introduction快速上手SparkShell独立应用程序开始翻滚吧!编程指南引入Spark初始化SparkSparkRDDs并行集合外部数据集RDD操作传递函数到Spark使用键值对TransformationsActionsRDD持久化共享变量从这里开始Spa
5、rkStreaming一个快速的例子基本概念关联初始化StreamingContext离散流输入DStreamsDStream中的转换DStream的输出操作缓存或持久化Checkpointing部署应用程序监控应用程序性能调优减少批数据的执行时间设置正确的批容量内存调优4Introduction容错语义SparkSQL开始数据源RDDsparquet文件JSON数据集Hive表性能调优其它SQL接口编写语言集成(Language-Integrated)的相关查询SparkSQL数据类型Grap
6、hX编程指南开始属性图图操作符PregelAPI图构造者顶点和边RDDs图算法例子部署提交应用程序独立运行Spark在yarn上运行Spark更多文档Spark配置性能调优Copyright本文翻译自Spark官方文档License本文使用的许可请查看这里5Introduction6快速上手快速上手本节课程提供一个使用Spark的快速介绍,首先我们使用Spark的交互式shell(用Python或Scala)介绍它的API。当演示如何在Java,Scala和Python写独立的程序时,看编程指南
7、里完整的参考。依照这个指南,首先从Spark网站下载一个Spark发行包。因为我们不会使用HDFS,你可以下载任何Hadoop版本的包。SparkShell独立应用程序开始翻滚吧!7SparkShell使用SparkShell基础Spark的shell作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习API。它可以使用Scala(在Java虚拟机上运行现有的Java库的一个很好方式)或Python。在Spark目录里使用下面的方式开始运行:./bin/spark-shellSpark最
8、主要的抽象是叫ResilientDistributedDataset(RDD)的弹性分布式集合。RDDs可以使用HadoopInputFormats(例如HDFS文件)创建,也可以从其他的RDDs转换。让我们在Spark源代码目录从README文本文件中创建一个新的RDD。scala>valtextFile=sc.textFile("README.md")textFile:spark.RDD[String]=spark.MappedRDD@2ee9b6e3RDD的actions从RDD中返回值,
此文档下载收益归作者所有