hadoop进行分布式数据处理,第2部分进

hadoop进行分布式数据处理,第2部分进

ID:30361301

大小:87.04 KB

页数:16页

时间:2018-12-29

hadoop进行分布式数据处理,第2部分进_第1页
hadoop进行分布式数据处理,第2部分进_第2页
hadoop进行分布式数据处理,第2部分进_第3页
hadoop进行分布式数据处理,第2部分进_第4页
hadoop进行分布式数据处理,第2部分进_第5页
资源描述:

《hadoop进行分布式数据处理,第2部分进》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、Hadoop进行分布式数据处理,第2部分进Hadoop分布式计算架构的真正实力在于其分布性。换句话说,向工作并行分布多个节点的能力使Hadoop能够应用于大型基础设施以及大量数据的处理。本文首先对一个分布式Hadoop架构进行分解,然后探讨分布式配置和使用。分布式Hadoop架构根据用Hadoop进行分布式数据处理,第1部分:入门,所有Hadoop守护进程都在同一个主机上运行。尽管不运用Hadoop的并行性,这个伪分布式配置提供一种简单的方式来以最少的设置测试Hadoop的功能。现在,让我们使用机器集群探讨

2、一下Hadoop的并行性。根据第1部分,Hadoop配置定义了让所有Hadoop守护进程在一个节点上运行。因此,让我们首先看一下如何自然分布Hadoop来执行并行操作。在一个分布式Hadoop设置中,您有一个主节点和一些从节点(见图1)。图1.Hadoop主从节点分解如图1所示,主节点包括名称节点、从属名称节点和jobtracker守护进程(即所谓的主守护进程)。此外,这是您为本演示管理集群所用的节点(使用Hadoop实用程序和浏览器)。从节点包括tasktracker和数据节点(从属守护进程)。两种设置的

3、不同之处在于,主节点包括提供Hadoop集群管理和协调的守护进程,而从节点包括实现Hadoop文件系统(HDFS)存储功能和MapReduce功能(数据处理功能)的守护进程。对于该演示,在一个LAN上创建一个主节点和两个从节点。设置如图2所示。现在,我们来探讨用于多节点分布的Hadoop的安装和配置。图2.Hadoop集群配置为简化部署,要运用虚拟化技术,该技术有几个好处。尽管在该设置中使用虚拟化技术看不出性能优势,但是它可以创建一个Hadoop安装,然后为其他节点克隆该安装。为此,您的Hadoop集群应显

4、示如下:在一个主机上的虚拟机监控程序上下文中将主从节点作为虚拟机(VM)运行(见图3)。图3.虚拟环境中的Hadoop集群配置回页首升级Hadoop在用Hadoop进行分布式数据处理,第1部分:入门中,我们安装了在一个节点上运行的Hadoop的一个特殊分布(伪配置)。在本文中,我们要更新分布式配置。如果您没有看过本系列的第1部分,那么请阅读第1部分,了解如何首先安装Hadoop伪配置。在伪配置中,您没有进行任何配置,因为单个节点已经过预先配置。现在,您需要更新配置。首先,使用update-alternati

5、ves命令检查当前配置,如清单1所示。该命令告诉您,配置在使用conf.pseudo(最高优先级)。清单1.检查当前Hadoop配置$update-alternatives--displayhadoop-0.20-confhadoop-0.20-conf-statusisauto.linkcurrentlypointsto/etc/hadoop-0.20/conf.pseudo/etc/hadoop-0.20/conf.empty-priority10/etc/hadoop-0.20/conf.pseudo

6、-priority30Current`best'versionis/etc/hadoop-0.20/conf.pseudo.$下一步,通过复制现有配置(本例中为conf.empty,如清单1所示)创建一个新配置:$sudocp-r/etc/hadoop-0.20/conf.empty/etc/hadoop-0.20/conf.dist$最后,激活并检查新配置:清单2.激活并检查Hadoop配置$sudoupdate-alternatives--install/etc/hadoop-0.20/confhado

7、op-0.20-conf/etc/hadoop-0.20/conf.dist40$update-alternatives--displayhadoop-0.20-confhadoop-0.20-conf-statusisauto.linkcurrentlypointsto/etc/hadoop-0.20/conf.dist/etc/hadoop-0.20/conf.empty-priority10/etc/hadoop-0.20/conf.pseudo-priority30/etc/hadoop-0.20

8、/conf.dist-priority40Current`best'versionis/etc/hadoop-0.20/conf.dist.$现在,您有一个名为conf.dist的新配置,您要将其用于您的新分布式配置。此时该节点运行于一个虚拟环境中,将该节点克隆到另外两个要充当数据节点的节点中。回页首配置Hadoop以实现分布式操作下一步是要使所有节点互联互通。这可以/etc/hadoop-0.20/conf.d

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。