基于spark的大数据处理平台的搭建与研究

基于spark的大数据处理平台的搭建与研究

ID:31359487

大小:108.00 KB

页数:6页

时间:2019-01-09

基于spark的大数据处理平台的搭建与研究_第1页
基于spark的大数据处理平台的搭建与研究_第2页
基于spark的大数据处理平台的搭建与研究_第3页
基于spark的大数据处理平台的搭建与研究_第4页
基于spark的大数据处理平台的搭建与研究_第5页
资源描述:

《基于spark的大数据处理平台的搭建与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Spark的大数据处理平台的搭建与研究  摘要:该文阐述了Spark处理技术在大数据框架上的性能提升优势,分析了BDAS生态系统框架中Spark的任务处理流程图。详细说明了Spark集群的搭建过程和运行状态,并通过SparkShell的交互界面进行交互式编程,实现对文本内容中单词出现次数的统计。  关键词:大数据;Spark;集群;Yarn;交互式编程  中图分类号:TP311文献标识码:A文章编号:1009-3044(2016)15-0014-03  Abstract:TheperformanceadvantagesofSparkprocessingtechnicalinbigda

2、taframeworkisdescribed,theprocessflowchartofSparkintheframeworkofBDASecosystemisanalyzed.TheconstructionprocessandrunningstateofSparkclusteraredescribedindetail.StatisticsonthenumberofwordsinthetextcontentbyinteractiveprogrammingthroughtheShellSparkinteractiveinterface.  Keywords:bigdata;spark;cl

3、uster;yarn;interactiveprogramming6  随着计算机和信息技术的迅猛发展和普及,传统的计算技术和信息系统的处理能力已经无法满足数百TB甚至数十到数百PB规模的行业企业大数据,因此,处于大数据时代的今天,更为高效的大数据处理技术、方法和手段取得了巨大的发展。  1大数据处理技术概述  Hadoop和Spark两者都是大数据框架。Hadoop实质上更多是一个分布式数据基础设施:它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。而Spark是基于内存计算的大数据并行计算框架,它基于内存计算。相比Hado

4、opMapReduce,Spark在性能上提高了100倍[1],不仅提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。  Hadoop的MapReduce在过去10年的时间成了大数据处理的代名词,而Spark作为一个崭新的大数据生态系统,逐渐取代传统的MapReduce而成为新一代大数据处理技术。以下通过Spark集群大数据处理平台的搭建与测试来进行研究。  2Spark技术分析  2.1Spark生态系统BDAS  目前Spark已经发展成为包含众多子项目的大数据计算平台。伯克利将Spark的整个生态系统成为伯克利数据分析栈(BDAS),其核心框架就是Spark,其

5、他子项目在Spark上层提供了更高层、更丰富的计算范式。BDAS结构框架,如图1所示。  2.2Spark的任务处理流程图6  Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。Spark将分布式数据抽象为天性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用Scala函数式语言编写而成,并且所提供的API深度借鉴Scala函数式的编程思想,提供与Scala类似的编程接

6、口。如图2为Spark的任务处理流程。  3Spark集群的安装与部署  实际应用中,Spark主要部署在Linux系统的集群中。如果要完整使用Spark,需要预先安装Hadoop,因此在Linux系统中安装Spark需要预先安装JDK、Scala等依赖。以1个Master节点和3个Slave节点进行部署,首先在主节点和子节点上完成基础步骤的安装,包括:JDK安装、Scala安装、配置SSH免密码登录、Hadoop安装配置及启动[3],然后再开始进行Spark集群的安装与部署。  3.1Spark集群的搭建  已经完成基础安装的1个主节点和3个子节点IP地址分别为:Master:10.2

7、30.10.160;Slave1:10.230.10.161;Slave2:10.230.10.162;Slave3:10.230.10.163。  1)下载并解压Spark安装文件  从官网下载spark1.3.1安装文件(集群采用的软件版本是Hadoop2.6.0和Spark1.3.1),并在主节点Master的usr/local/spark/spark1.3.1的目录下,解压下载好的spark-1.3.1-bin-hadoop

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。