欢迎来到天天文库
浏览记录
ID:20880810
大小:1.17 MB
页数:61页
时间:2018-10-17
《hadoop大数据平台部署与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Hadoop大数据平台部署与应用主讲:吕震宇主要内容1、Hadoop生态系统概述以及版本演化2、Hadoop发行版介绍(开源版)3、Hadoop安装4、HDFS上机操作5、HBASE上机操作6、YARN上机操作7、MapReduce上机操作8、SPARK概述1、Hadoop生态系统概述以及版本演化Hadoop1.0与Hadoop2.0分布式存储系统HDFS(HadoopDistributedFileSystem)提供了高可靠性、高扩展性和高吞吐率的数据存储服务分布式计算框架MapReduce具有易于编程、高容错性和高扩展
2、性等优点资源管理系统YARN(YetAnotherResourceNegotiator)负责集群资源的统一管理和调度HADOOP1.0HADOOP2.0HDFS(redundant,reliablestorage)MapReduce(clusterresourcemanagement&dataprocessing)MapReduce(dataprocessing)Others(dataprocessing)YARN(clusterresourcemanagement)HDFS(redundant,reliablestor
3、age)HDFS架构DataNodeDataNodeDataNodeDataNodeDataNodeLocalDiskNameNodeSecondaryNameNodeHDFSClientLocalDiskLocalDiskLocalDiskLocalDisk心跳、均衡负载、复制等HDFS架构ActiveNamenode主Master(只有一个),管理HDFS的名称空间,管理数据块映射信息配置副本策略;处理客户端读写请求SecondaryNameNodeNameNode的热备;定期合并fsimage和fsedits,推送
4、给NameNode;当ActiveNameNode出现故障时,快速切换为新的ActiveNameNode。DatanodeSlave(有多个);存储实际的数据块;执行数据块读/写Client与NameNode交互,获取文件位置信息;与DataNode交互,读取或者写入数据;管理HDFS、访问HDFS。MapReduce源自于Google的MapReduce论文发表于2004年12月HadoopMapReduce是GoogleMapReduce克隆版MapReduce特点良好的扩展性高容错性适合PB级以上海量数据的离线处理
5、词频统计的MapReduce处理过程DeerBearRiverCarCarRiverDeerCarBearDeer,1Bear,1River,1Car,1Car,1River,1Deer,1Car,1Bear,1DeerBearRiverCarCarRiverDeerCarBearBear,1Bear,1Car,1Car,1Car,1Deer,1Deer,1River,1River,1Bear,2Car,3Deer,2River,2Bear,2Car,3Deer,2River,2InputSplittingMapping
6、ReducingShufflingFinalresultHadoop构成:YARN(资源管理系统)ApplicationRunNativelyINHadoopBATCH(MapReduce)YARN(ClusterResourceManagement)HDFS2(Redundant,ReliableStorage)InterActive(Tez)ONLINE(HBase)STREAMING(Storm,S4,…)GRAPH(Giraph)IN-MEMORY(Spark)HPCMPI(OpenMPI)OTHER(Searc
7、h…)YARN是什么Hadoop2.0新增系统负责集群的资源管理和调度使得多种计算框架可以运行在一个集群中YARN的特点良好的扩展性、高可用性对多种类型的应用程序进行统一管理和调度自带多种多用户调度器,适合共享集群环境Hadoop生态系统:1.0时代Flume(日志收集)Zookeeper(分布式协调服务)Mahout(数据挖掘库)Hive(数据仓库)Oozie(作业流调度系统)MapReduce(分布式计算框架)Ambari(安装部署工具)HDFS(分布式存储系统)Pig(工作流引擎)Hbase(分布式数据库)Sqoo
8、p(数据库TEL工具)Hive(基于MR的数据仓库)由Facebook开源,最初用于海量结构化日志数据统计;ETL(Extraction-Transformation-Loading)工具构建在Hadoop之上的数据仓库数据计算使用MapReduce,数据存储使用HDFSHive定义了一种类SQL查询语言——HQL类
此文档下载收益归作者所有