hadoop大数据平台部署与应用

hadoop大数据平台部署与应用

ID:20880810

大小:1.17 MB

页数:61页

时间:2018-10-17

hadoop大数据平台部署与应用_第1页
hadoop大数据平台部署与应用_第2页
hadoop大数据平台部署与应用_第3页
hadoop大数据平台部署与应用_第4页
hadoop大数据平台部署与应用_第5页
资源描述:

《hadoop大数据平台部署与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Hadoop大数据平台部署与应用主讲:吕震宇主要内容1、Hadoop生态系统概述以及版本演化2、Hadoop发行版介绍(开源版)3、Hadoop安装4、HDFS上机操作5、HBASE上机操作6、YARN上机操作7、MapReduce上机操作8、SPARK概述1、Hadoop生态系统概述以及版本演化Hadoop1.0与Hadoop2.0分布式存储系统HDFS(HadoopDistributedFileSystem)提供了高可靠性、高扩展性和高吞吐率的数据存储服务分布式计算框架MapReduce具有易于编程、高容错性和高扩展

2、性等优点资源管理系统YARN(YetAnotherResourceNegotiator)负责集群资源的统一管理和调度HADOOP1.0HADOOP2.0HDFS(redundant,reliablestorage)MapReduce(clusterresourcemanagement&dataprocessing)MapReduce(dataprocessing)Others(dataprocessing)YARN(clusterresourcemanagement)HDFS(redundant,reliablestor

3、age)HDFS架构DataNodeDataNodeDataNodeDataNodeDataNodeLocalDiskNameNodeSecondaryNameNodeHDFSClientLocalDiskLocalDiskLocalDiskLocalDisk心跳、均衡负载、复制等HDFS架构ActiveNamenode主Master(只有一个),管理HDFS的名称空间,管理数据块映射信息配置副本策略;处理客户端读写请求SecondaryNameNodeNameNode的热备;定期合并fsimage和fsedits,推送

4、给NameNode;当ActiveNameNode出现故障时,快速切换为新的ActiveNameNode。DatanodeSlave(有多个);存储实际的数据块;执行数据块读/写Client与NameNode交互,获取文件位置信息;与DataNode交互,读取或者写入数据;管理HDFS、访问HDFS。MapReduce源自于Google的MapReduce论文发表于2004年12月HadoopMapReduce是GoogleMapReduce克隆版MapReduce特点良好的扩展性高容错性适合PB级以上海量数据的离线处理

5、词频统计的MapReduce处理过程DeerBearRiverCarCarRiverDeerCarBearDeer,1Bear,1River,1Car,1Car,1River,1Deer,1Car,1Bear,1DeerBearRiverCarCarRiverDeerCarBearBear,1Bear,1Car,1Car,1Car,1Deer,1Deer,1River,1River,1Bear,2Car,3Deer,2River,2Bear,2Car,3Deer,2River,2InputSplittingMapping

6、ReducingShufflingFinalresultHadoop构成:YARN(资源管理系统)ApplicationRunNativelyINHadoopBATCH(MapReduce)YARN(ClusterResourceManagement)HDFS2(Redundant,ReliableStorage)InterActive(Tez)ONLINE(HBase)STREAMING(Storm,S4,…)GRAPH(Giraph)IN-MEMORY(Spark)HPCMPI(OpenMPI)OTHER(Searc

7、h…)YARN是什么Hadoop2.0新增系统负责集群的资源管理和调度使得多种计算框架可以运行在一个集群中YARN的特点良好的扩展性、高可用性对多种类型的应用程序进行统一管理和调度自带多种多用户调度器,适合共享集群环境Hadoop生态系统:1.0时代Flume(日志收集)Zookeeper(分布式协调服务)Mahout(数据挖掘库)Hive(数据仓库)Oozie(作业流调度系统)MapReduce(分布式计算框架)Ambari(安装部署工具)HDFS(分布式存储系统)Pig(工作流引擎)Hbase(分布式数据库)Sqoo

8、p(数据库TEL工具)Hive(基于MR的数据仓库)由Facebook开源,最初用于海量结构化日志数据统计;ETL(Extraction-Transformation-Loading)工具构建在Hadoop之上的数据仓库数据计算使用MapReduce,数据存储使用HDFSHive定义了一种类SQL查询语言——HQL类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。