hadoop生态圈解读

hadoop生态圈解读

ID:2001331

大小:2.46 MB

页数:137页

时间:2017-11-14

hadoop生态圈解读_第1页
hadoop生态圈解读_第2页
hadoop生态圈解读_第3页
hadoop生态圈解读_第4页
hadoop生态圈解读_第5页
资源描述:

《hadoop生态圈解读》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Hadoop生态圈一、简介1什么是HADOOP1.HADOOP是apache旗下的一套开源软件平台2.HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理3.HADOOP的核心组件有A.HDFS(分布式文件系统)B.YARN(运算资源调度系统)C.MAPREDUCE(分布式运算编程框架)4.广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈2HADOOP生态圈以及各组成部分的简介各组件简介:1.HDFS:分布式文件系统2.MAPREDUCE:分布式运

2、算程序开发框架3.HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具4.HBASE:基于HADOOP的分布式海量数据库5.ZOOKEEPER:分布式协调服务基础组件6.Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库7.Oozie:工作流调度框架8.Sqoop:数据导入导出工具9.Flume:日志数据采集框架3HADOOP集群HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。HDFS集群:负责海量数

3、据的存储,集群中的角色主要有NameNode/DataNodeYARN集群:负责海量数据运算时的资源调度,集群中的角色主要有ResourceManager/NodeManager(那mapreduce是什么呢?它其实是一个应用程序开发包)本集群搭建案例,以5节点为例进行搭建,角色分配如下:hdp-node-01NameNodeSecondaryNameNodehdp-node-02ResourceManagerhdp-node-03DataNodeNodeManagerhdp-node-04DataNode

4、NodeManagerhdp-node-05DataNodeNodeManager部署图如下:4MAPREDUCE使用mapreduce是hadoop中的分布式运算编程框架,只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。1、Demo开发——wordcount需求:从大量(比如T级别)文本文件中,统计出每一个单词出现的总次数。2、mapreduce实现思路:Map阶段:a)从HDFS的源数据文件中逐行读取数据b)将每一行数据切分出单词c)为每一个单词构造一个键值对(单

5、词,1)d)将键值对发送给reduceReduce阶段:a)接收map阶段输出的单词键值对b)将相同单词的键值对汇聚成一组c)对每一组,遍历组中的所有“值”,累加求和,即得到每一个单词的总次数d)将(单词,总次数)输出到HDFS的文件中二、HDFS1.HDFS前言l设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;l在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务l重点概念:文件切块,

6、副本存放,元数据2.HDFS的概念和特性首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;重要特性如下:(1)HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本中是64M(2)HDFS文件系统会给客户端提供一个统一的抽象目录树,客户端通过路径来访问文件,形如:hdfs://namenode

7、:port/dir-a/dir-b/dir-c/file.data(3)目录结构及文件分块信息(元数据)的管理由namenode节点承担——namenode是HDFS集群主节点,负责维护整个hdfs文件系统的目录树,以及每一个路径(文件)所对应的block块信息(block的id,及所在的datanode服务器)(4)文件的各个block的存储管理由datanode节点承担----datanode是HDFS集群从节点,每一个block都可以在多个datanode上存储多个副本(副本数量也可以通过参数设置df

8、s.replication)(5)HDFS是设计成适应一次写入,多次读出的场景,且不支持文件的修改(注:适合用来做数据分析,并不适合用来做网盘应用,因为,不便修改,延迟大,网络开销大,成本太高)3.HDFS的工作机制(工作机制的学习主要是为加深对分布式系统的理解,以及增强遇到各种问题时的分析解决能力,形成一定的集群运维能力)注:很多不是真正理解hadoop技术体系的人会常常觉得HDFS可用于网盘类应用,但实际并非

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。