spark实战第1部分使用scala语言开发spark应用程序

spark实战第1部分使用scala语言开发spark应用程序

ID:9394765

大小:391.44 KB

页数:17页

时间:2018-04-30

spark实战第1部分使用scala语言开发spark应用程序_第1页
spark实战第1部分使用scala语言开发spark应用程序_第2页
spark实战第1部分使用scala语言开发spark应用程序_第3页
spark实战第1部分使用scala语言开发spark应用程序_第4页
spark实战第1部分使用scala语言开发spark应用程序_第5页
资源描述:

《spark实战第1部分使用scala语言开发spark应用程序》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、Spark实战,第1部分:使用Scala语言开发Spark应用程序本文旨在通过具有实际意义的案例向读者介绍如何使用Scala语言开发Spark应用程序并在Spark集群上运行。本文涉及的所有源数据都将从HDFS(HadoopDistributedFileSystem)读取,部分案例的输出结果也会写入到HDFS,所以通过阅读本文,读者也会学习到Spark和HDFS交互的一些知识。查看本系列更多内容 

2、 3 评论:王龙,软件开发工程师,IBM2015年7月21日·内容在IBMBluemix云平台上开发并部署您的下一个应用。开始您的试用引言在当前这个信息时代里,大数据所蕴

3、含的价值已经被绝大多数的企业所认知。在IT的世界里,往往都是需求驱动技术的发展和革新。Hadoop在这个大背景下应运而生,它给我们提供了一个存储和处理大数据的良好的解决方案,短短的几年时间里,它已无处不在,事实上它已经成了大数据技术的代名词。然而在人们越来越多的使用Hadoop提供的MapReduce框架处理大数据的时候,却发现它存在许多天生的缺陷,如效率低,编程模型不够灵活,只适合做离线计算等。Spark的出现无疑让诸多大数据计算的从业者和爱好者眼前一亮,它基于内存,并且提供了更加丰富的算子使得我们可以更高效和灵活的处理大数据。本文将从实例出发,向读者介绍如何使用

4、Scala语言(Spark框架的开发语言)开发Spark应用程序并且将其运行在Spark集群环境里。本文假设读者已经对Spark基本原理和编程模型有了基本的了解,并且已经掌握了Scala语言开发的基础知识,那么通过阅读本文,相信您一定会对Spark应用程序的开发有更深入的认识。接下来,就让我们开始Spark应用程序的开发之旅吧。回页首关于SparkSpark由加州大学伯克利分校AMP实验室(Algorithms,Machines,andPeopleLab)开发,可用来构建大型的、低延迟的大数据处理的应用程序。并且提供了用于机器学习(MLlib),流计算(Stream

5、ing),图计算(GraphX)等子模块,最新的1.4.0版本更是提供了与R语言的集成,这使得Spark几乎成为了多领域通吃的全能技术。Spark对数据的存储,转换,以及计算都是基于一个叫RDD(ResilientDistributedDataset)分布式内存的抽象,应用程序对需要计算的数据的操作都是通过对RDD的一系列转化(Transformation)和动作(Action)算子完成的,其中转化算子可以把一个RDD转成另一个RDD,如filter算子可以通过添加过滤条件生成一个只包含符合条件的数据的新的RDD。动作算子负责完成最终的计算,如count算子可以计算

6、出整个RDD表示的数据集中元素的个数。关于Spark所支持的算子以及使用方法请参考 Spark官方网站。本文所使用的Spark的发行版是1.3.1,读者可根据需要下载相应的版本。回页首关于ScalaScala语言是一门类Java的多范式语言,其设计初衷就是为了继承函数式编程的面向对象编程的各种特性,正如 Scala语言官网 描述的那样:Object-OrientedMeetsFunctional,就是给出了一个关于Scala语言特性的最简单明了的概括。Spark框架使用Scala语言开发,那么使用Scala语言开发Spark应用程序就变成一件很自然的事情,虽然Spa

7、rk提供了面向Python,Java等语言的编程接口,但是从各个方面来看使用Scala编程都是最简单最容易理解的,特别是当程序出现异常或者是需要通过学习源码来定位问题时,您会发现学习Scala语言来编写Spark应用程序是多么有意义的事情。关于Scala语言,如果您还没有基础,请参考·Scala语言官网·Scala中文网·Twitter提供的 Scala课堂·面向Java开发人员的Scala指南系列由于Spark1.3.1版本使用的是Scala2.10.x版本,所以本文将使用Scala2.10.5版本。回页首搭建开发环境1.安装ScalaIDE搭建Scala语言开发

8、环境很容易,ScalaIDE官网 下载合适的版本并解压就可以完成安装,本文使用的版本是4.1.0。2.安装Scala语言包如果下载的ScalaIDE自带的Scala语言包与Spark1.3.1使用的Scala版本(2.10.x)不一致,那么就需要下载和本文所使用的Spark所匹配的版本,以确保实现的Scala程序不会因为版本问题而运行失败。请下载并安装 Scala2.10.5版本3.安装JDK如果您的机器上没有安装JDK,请下载并安装1.6版本以上的JDK。4.创建并配置Spark工程打开ScalaIDE,创建一个名称为spark-exercise的Scala工

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。