欢迎来到天天文库
浏览记录
ID:48393097
大小:4.78 MB
页数:101页
时间:2019-10-27
《Hadoop体系架构.docx》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、--Hadoop体系架构-----Yarn架构-----Hadoop和MRv1简单介绍Hadoop集群可从单一节点(其中所有Hadoop实体都在同一个节点上运行)扩展到数千个节点(其中的功能分散在各个节点之间,以增加并行处理活动)。图1演示了一个Hadoop集群的高级组件。-----图1.Hadoop集群架构的简单演示-----一个Hadoop集群可分解为两个抽象实体:MapReduce引擎和分布式文件系统。MapReduce引擎能够在整个集群上执行Map和Reduce任务并报告结果,其中分布式文件系统提供了一种存储模式,可跨节点复制数据以进行处理。Hadoop分布式文件-----系统
2、(HDFS)通过定义来支持大型文件(其中每个文件通常为64MB的倍数)。-----当一个客户端向一个Hadoop集群发出一个请求时,此请求由JobTracker管理。JobTracker与NameNode联合将工作分发到离它所处理的数据尽可能近的位置。NameNode是文件系统的主系统,提供元数据服务来执行数据分发和复制。JobTracker将Map和Reduce任务安排到一个或多个TaskTracker上的可用插槽中。-----TaskTracker与DataNode(分布式文件系统)一起对来自DataNode的数据执行-----Map和Reduce任务。当Map
3、和Reduce任务完成时,TaskTracker会告知-----JobTracker,后者确定所有任务何时完成并最终告知客户作业已完成。-----InfoSphereBigInsightsQuickStartEdition-----InfoSphereBigInsightsQuickStartEdition是IBM基于Hadoop的产品InfoSphere-----BigInsights的一个免费可下载版本。使用QuickStartEdition,您可尝试IBM开发的-----特性来扩大开源Hadoop的价值,比如BigSQL、文本分析和BigSheets。引导式学
4、习可让您的体验尽可能顺畅,包括按部就班、自定进度的教程和视频,可以帮助开始让Hadoop为您所用。没有时间或数据限制,您可自行安排时间在大量数据上进行试验。-----请观看视频、学习教程(PDF)和下载BigInsightsQuickStartEdition。-----从图1中可以看到,MRv1实现了一个相对简单的集群管理器来执行MapReduce处理。MRv1提供了一种分层的集群管理模式,其中大数据作业以单个Map和Reduce-----任务的形式渗入一个集群,并最后聚合成作业来报告给用户。但这种简单性有一些隐秘,不过也不是很隐秘的问题。MRv1的缺陷MapReduce的第一个版本既有优点
5、也有缺点。MRv1是目前使用的标准的大数据处理系统。但是,这种架构存在不足,主要表现在大型集群上。当集群包含的节点超过4,000个时(其中每个节点可能是多核的),就会表现出一定的不可预测性。其中一个最大的问题是级联故障,由于要尝试复制数据和重载活动的节点,所以一个故障会通过网络泛洪形式导致整个集群严重恶化。但MRv1的最大问题是多租户。随着集群规模的增加,一种可取的方式是为这些集群采用各种不同的模型。MRv1的节点专用于Hadoop,所以可以改变它们的用途以用于其他应用程序和工作负载。当大数据和Hadoop成为云部署中一个更重要的使用模型时,这种能力也会增强,因为它允许在服务器上对Hadoo
6、p进行物理化,而无需虚拟化且不会增加管理、计算和输入/输出开销。-----我们现在看看YARN的新架构,看看它如何支持MRv2和其他使用不同处理模型的应用程序。-----YARN(MRv2)简介为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性。设计人员采用了一种分层的集群框架方法。具体来讲,特定于MapReduce的功能已替换为一组新的守护程序,将该框架向新的处理模型开放。可在何处找到YARN?YARN是在hadoop-0.23版本时引入Hadoop中的。随着彻底检查的不断完善,您将会发现此框架也在不断更新。回想一下,由于限制了扩展以及网络开销所导致的某些故障模式,MRv1JobTr
7、acker和TaskTracker方法曾是一个重要的缺陷。这些守护程序也是MapReduce处理模型所独有的。为了消除这一限制,JobTracker和TaskTracker已从YARN中删除,取而代之的是一组对应用程序不可知的新守护程序。图2.YARN的新架构YARN分层结构的本质是ResourceManager。这个实体控制整个集群并管理应用程序向基础计算资源的分配。ResourceManager将各个资源
此文档下载收益归作者所有