Hadoop核心机制详细解析

ID：44208440

大小：93.22 KB

页数：4页

时间：2019-10-19

资源描述：

《Hadoop核心机制详细解析》由会员上传分享，免费在线阅读，更多相关内容在工程资料-天天文库。

1、Hadoop的核心机制是通过HDFS文件系统和MapReduce算法进行存储资源、内存和程序的有效利用与管理。在现实的实例中，通过Hadoop,可以轻易的将多台普通的或低性能的服务器组合成分布式的运算-存储集群，提供大数据量的存储和处理能力。知其然，知其所以然。要想深入学习和理解Hadoop的核心机制，还要从MapReduce和HDFS的原理入手。MapReduce的“大事化小”作为Google提出的架构，MapReduce通过Map（映射）和Reduce（化简）来实现大规模数据（TB级）的并行计算。可以简单理解为，通过Ma

2、p（映射）函数，把一组键值对映射成一组新的键值对；指定并发的Reduce（化简）函数，用来保证所有映射的键值对中的每一个共享相同的键组。MapReduce是一种大数据计算的开发模式和思想方法。开发人员先分析需求所提出问题的解决流程，找出数据可以并发处理的部分（Reduce）,也就是那些能够分解为小段的可并行处理的数据，再将这些能够采用并发处理的需求写成Map程序（Map）o然后就可以使用大量服务器来执行Map程序，并将待处理的庞大数据切割成很多的小份数据，由每台服务器分别执行Map程序来处理分配到的那一小段数据，接着再将每-

3、个Map程序分析出来的结果，透过Reduce程序进行合并，最后则汇整出完整的结果。MapReduce的整个流程就像…MapReduce是Hadoop分布式计算的关键技术，将要执行的问题，拆解成Map和Reduce的方式来执行，以达到分散运算的效果。例如要搜寻网页中的“InBigData"这个词，可以先用Map程序，来计算出所有网页中，每一个词的位置。再使用Reduce程序，在每一个字的清单中，检索出“InBigData”所对应的URL,您就来到了这个博客。MapReduce程序的执行过程如下：oHOFSOMapReduce运

4、行流程(WoftedlB)r-_"r❹%■■MapM.2M99KHMipme(WorMdia)HDFSMapReduce的运作方式就像快递公司一样。物流部门会将发往各地的包裹先运送到各地的物流分站，再由分站派出进行派送；快递员等每个包裹的用户签单后将数据反馈给系统汇总，完成整个快递流程。在这里,每个快递员都会负责配送，所执行的动作大致相同，口只负责少量的包裹，最后由物流公司的系统进行汇总(而不是从一个库房一个快递员直接发往各地；这样的话估计顺风、京东神马的会被人骂死)。在Hadoop集群架构中，服务器依据用途可分成Maste

5、r节点和Worker节点，Master负责分配任务，而Worker负责执行任务。Hadoop中的Master与WorkerHadoop运算集群屮的服务器依用途分成Master节点和Worker节点。Master节点中含有JobTracker>NameNode>TaskTracker和DataNode程序；Worker节点含有TaskTracker和DataNodeo另外在系统的架构上，最简单的Hadoop架构,可以分成上层的MapReduce运算层以及下层的HDFS数据层。在Master节点的服务器中会执行两套程序：一个是负

6、责安排MapReduce运算层任务的JobTracker,以及负责管理I1DFS数据层的NameNode程序。而在Worker节点的服务器中也有两套程序，接受JobTrackcr指挥，负责执行运算层任务的是TaskTracker程序，与NameNode对应的则是DataNode程序，负责执行数据读写操作以及执行NameNode的副木策略。在MapReduce运算层上，担任Master节点的服务器负责分配运算任务‘Master节点上的JobTrackcr程序会将Map和Reduce程序的执行工作指派给Worker服务器上的Ta

7、skTracker程序，由TaskTracker负责执行Map和Reduce工作，并将运算结果回复给Master节点上的JobTrackero在HDFS数据层上,NameNode负责管理和维护HDFS的名称空间、并且控制档案的任何读写动作，同时NameNode会将要处理的数据切割成一个个档案区块(Block),每个区块是64MB,例如1GB的数据就会切割成16个档案区块。NameNode述会决定每一份档案区块要建立多少个副本，一般来说，一个档案区块总共会复制成3份，并且会分散储存到3个不同Worker服务器的DataNode

8、程序中管理，只要其中任何一份档案区块遗失或损坏，NameNode会自动寻找位于其他DataNode上的副本来回复，维持3份的副本策略。在一套Ilcidoop集群中,分配MapReduce任务的JobTracker只有1个,而TaskTracker可以有很多个。同样地，负责管理HDFS文件系

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 / 4



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

Hadoop核心机制详细解析

Hadoop核心机制详细解析

相关文章

相关标签