欢迎来到天天文库
浏览记录
ID:15355938
大小:2.98 MB
页数:30页
时间:2018-08-02
《hadoop大数据处理讲义-c3. hadoop体系架构》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、海量数据处理中的云计算C3.Hadoop体系架构北京邮电大学信息与通信工程学院刘军liujun@bupt.edu.cn2014年春季学期上节问题问题:–对Google的三大核心技术任意一个的最重要技术特点进行研究要求:–详细讲解该特点,并说明为什么是最重要的第2页本节目录Hadoop发展历程基于Hadoop的海量数据处理架构Hadoop技术组件介绍Hadoop实战第3页Hadoop的由来当老二干不过老大时,怎么办?免费+开源vs.vs.Hadoop的由来DougCutting+Google论文+Yahoo!支持DougCuttingN
2、utch,Lucene创始人Hadoop创始人挣扎在如何使Nutch满足Web-Scale要求20022003发表GFS论文参考GFS论文,在Nutch中实现NDFS20042004发表MapReduce论文参考MapReduce论文,实现并移植Nutch2005加入Yahoo!并扩充,建立Hadoop项目20062006发表BigTable、Chubby论文Hadoop成为Apache顶级项目2008第5页Hadoop发展历程第6页Hadoop技术族Hive数据仓库工具,将结构化数据文件映射为库表,HBase并提供强大的类PigSQL查询功能分布式的
3、、面向适合海量数据分列的数据库,是析的脚本语言工一个适合于非结具,包括了一个Common构化海量数据存数据分析语言和储的数据库整体架构提供基支持的运行环境础支撑性功能,主要包括了文件系统、RPC和数Chukwa据串行化库HCatalog分布式数据收集提供共享数据模HDFSMapReduce和分析工具集,版和数据类型的用于显示、监控、构建于廉价计算分布式编程模型机制,并对数据分析大型分布式机集群之上的分和软件框架,用表进行抽象以便系统的运行数据布式文件系统,于在集群上编写于进行数据整合低成本、高可靠对海量数据处理性、高吞吐量的并行化程序AmbariSqo
4、op安装、管理和监在Hadoop与传控Hadoop集群统数据库间进行ZooKeeper的Web界面工具。数据交换的工具,目前已支持大部维护Hadoop集支持两者之间的分组件的管理群的配置和命名数据导入和导出信息,并提供分布式锁同步功能和群组管理功能第7页基于Hadoop的海量数据处理框架平台管理层:确保整个数据处理平台平稳安全运行的保障,包括配置管理、运行监控、故障管理、性能优化、安全管理等在内的功能。数据分析层:提供一些高级的分析工具给数据分析人员,以提高他们的生产效率。编程模型层:为大规模数据处理提供一个抽象的并行计算编程模型,以及为此模型提
5、供可实施的编程环境和运行环境。数据存储层:提供分布式、可扩展的大量数据表的存储和管理能力,强调的是在较低成本的条件下实现海量数据表的管理能力。文件存储层:利用分布式文件系统技术,将底层数量众多且分布在不同位置的通过网络连接的各种存储设备组织在一起,通过统一的接口向上层应用提供对象级文件访问服务能力。数据集成层:系统需要处理的数据来源,包括私有的应用数据、存放在数据库中的数据、被分析系统运行产生的日志数据等,这些数据具有结构多样、类型多变的特点。第8页Hadoop核心–HDFS与MapReduce第9页Hadoop核心–基础架构(HDFS+MR)
6、JobClientJobTrackerTaskTrackerNameNode(NN)SecondaryNNDataNode(DN)–基于接口库编写–控制协调者–任务控制–管理者,命名空间,–NameNode备份–与NameNode维护文件树及文件和定时通信的客户端程序–协调作业的执行–一个或多个–与NN定时通信目录的元数据–保存元数据快照–提交MR作业–仅有一个Map或Reduce–保存元数据快照任务–命名空间镜像文件、–故障切换–故障切换编辑日志文件、数据MapTask,ReduceTask–维持心跳块与DN的对应–具体执行Map和Red
7、uce任务的程序第10页Hadoop核心–运行机制①MapReduce程序启动作业⑦JobTracker将Map任务和Reduce任务分配②JobClient从JobTracker获得作业ID到空闲的TaskTracker节点③JobClient将代码和配置存入HDFS⑧TaskTracker从HDFS取出数据存入本地磁盘,并启动一个TaskRunner准备运行任务④JobClient向JobTracker提交此作业⑨TaskRunner在新Java虚拟机中创建出⑤JobTracker将作业放入队列中等待调度MapTask或ReduceTask进行运算
8、,⑥JobTracker从HDFS中取出代码和配置,并创建MapTask和ReduceTask
此文档下载收益归作者所有