hadoop概述及2.0生态组件简介

hadoop概述及2.0生态组件简介

ID:12405619

大小:137.49 KB

页数:6页

时间:2018-07-16

hadoop概述及2.0生态组件简介_第1页
hadoop概述及2.0生态组件简介_第2页
hadoop概述及2.0生态组件简介_第3页
hadoop概述及2.0生态组件简介_第4页
hadoop概述及2.0生态组件简介_第5页
资源描述:

《hadoop概述及2.0生态组件简介》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Hadoop概述及2.0生态组件简介Hadoop概述及2.0生态组件简介Hadoop是Apache软件基金会的顶级开源项目,是一套可靠的,可扩展的,支持分布式计算的开源软件,由原雅虎公司DougCutting根据Google发布的学术论文(GoogleFileSystem、MapReduce、BigTable)而创建的开源项目。DougCutting被称为Hadoop之父。而Hadoop是一个虚构的名字,DougCutting解释Hadoop的得名:“这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短、容易发音和拼写,没有太

2、多的意义,并且不会被用于别处,小孩子恰恰是这方面的高手”。所以Hadoop的logo就是一只奔跑的棕黄色小象。Hadoop是一个基础框架,允许用简单的编程模型在计算机集群对大型数据集进行分布式处理。它的设计规模从单一服务器到数千台机器,每个都提供本地计算和存储,框架本身提供计算机集群高可用的服务而不是依靠硬件来提供高可用性。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序,低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统。Hadoop的特点Hadoop是一个能

3、够对大量数据进行分布式处理的软件框架,它是以一种可靠、高效、可伸缩的方式进行数据处理。·高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。·高扩展性:Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可以方便地扩展到数以千计的节点中。6/6Hadoop概述及2.0生态组件简介·高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。·高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。·低成本:Hadoop依赖于社区服务,它的成本比较低。Ha

4、doop版本演进当前Hadoop已发展到第二代版本,最新稳定版本是2.7.2。Hadoop1.0被称为第一代Hadoop,由分布式文件系统HDFS和分布式计算框架MapReduce组成,其中,HDFS由一个NameNode和多个DataNode组成,MapReduce由一个JobTracker和多个TaskTracker组成。第二代Hadoop被称为Hadoop2.0,是为克服Hadoop1.0中HDFS和MapReduce存在的各种问题而提出的。针对Hadoop1.0中NameNodeHA不支持自动切换且切换时间过长的风险,Hadoop2

5、.0提出了基于共享存储的HA方式,支持失败自动切换切回。针对Hadoop1.0中的单NameNode制约HDFS的扩展性问题,提出了HDFSFederation机制,它允许多个NameNode各自分管不同的命名空间进而实现数据访问隔离和集群横向扩展。针对Hadoop1.0中的MapReduce在扩展性和多框架支持方面的不足,提出了全新的资源管理框架YARN,它将JobTracker中的资源管理和作业控制功能分开,分别由组件ResourceManager和ApplicationMaster实现。其中,ResourceManager负责所有应用

6、程序的资源分配,而ApplicationMaster仅负责管理一个应用程序。相比于Hadoop1.0,Hadoop2.0框架具有更好的扩展6/6Hadoop概述及2.0生态组件简介性、可用性、可靠性、向后兼容性和更高的资源利用率以及能支持除了MapReduce计算框架外的更多的计算框架,Hadoop2.0目前是业界主流使用的Hadoop版本。Hadoop2.0生态组件1.HDFS(Hadoop分布式文件系统)HDFS是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简

7、化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。2.YARN(集群资源管理系统)YARN是Hadoop2.x以后对Hadoop1.x之前JobTracker和TaskTracker模型的优化而产生出来的,将JobTracker的资源分配和作业调度及监督分开。该框架主要有ResourceManager,Applicationmatser,Nodemanager。3.MapReduce(分布式离线计算框架)6/6Hadoop概述及2.0生态组件简介MapReduce是一种计算模型,用以进行

8、大数据量的计算。其中Map对数据集上的独立元素进行指定的操作,生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约,以得到最终结果。MapReduc

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。