欢迎来到天天文库
浏览记录
ID:34424914
大小:1.11 MB
页数:6页
时间:2019-03-06
《使用 linux 和 hadoop 进行分布式计算 (免费)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、年秋天作为的子由公司于HadoopApacheSoftwareFoundation2005Lucene项目的一部分正式引入。它受到最先由开发的和NutchGoogleLabMapReduce的启发。年月份,和GoogleFileSystem20063MapReduceNutchDistributedFile分别被纳入称为的项目中。System(NDFS)Hadoop是最受欢迎的在上对搜索关键字进行内容分类的工具,但它也可以解HadoopInternet决许多要求极大伸缩性的问题。例如,如果您要一个的巨型文件,会出现什10TBgrep么情况?在传统的系统上,这将需要很长的
2、时间。但是在设计时就考虑到这些问Hadoop题,因此能大大提高效率。先决条件先决条件先决条件先决条件是一个能够对大量数据进行分布式处理的软件框架。但是是以一种可靠、HadoopHadoop高效、可伸缩的方式进行处理的。是可靠的,因为它假设计算元素和存储会失败,Hadoop因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。是高效Hadoop的,因为它以并行的方式工作,通过并行处理加快处理速度。还是可伸缩的,能Hadoop够处理级数据。此外,依赖于社区服务器,因此它的成本比较低,任何人都PBHadoop可以使用。您可能已经想到,运行在生产平台上是非常理想的,因
3、为它带有用HadoopLinuxJava崱语言编写的框架。上的应用程序也可以使用其他语言编写,比如HadoopC++。架构架构架构架构Hadoop有许多元素构成。最底部是),它存HadoopHadoopDistributedFileSystem(HDFS储集群中所有存储节点上的文件。(对于本文)的上一层是HadoopMapReduceHDFS引擎,该引擎由和组成。JobTrackersTaskTrackersHDFS对外部客户机而言,就像一个传统的分级文件系统。可以创建、删除、移动或重命HDFS名文件,等等。但是的架构是基于一组特定的节点构建的(参见图),这是由它HDF
4、S1自身的特点决定的。这些节点包括(仅一个),它在内部提供元数据NameNodeHDFS服务;,它为提供存储块。由于仅存在一个,因此这是DataNodeHDFSNameNode的一个缺点(单点失败)。HDFS集群的简化视图图1.Hadoop存储在中的文件被分成块,然后将这些块复制到多个计算机中()。这HDFSDataNode与传统的架构大不相同。块的大小(通常为)和复制的块数量在创建文件时RAID64MB由客户机决定。可以控制所有文件操作。内部的所有通信都基于标准的NameNodeHDFS协议。TCP/IPNameNode是一个通常在实例中的单独机器上运行的软件。它负责
5、管理文件系统NameNodeHDFS名称空间和控制外部客户机的访问。决定是否将文件映射到上的NameNodeDataNode复制块上。对于最常见的个复制块,第一个复制块存储在同一机架的不同节点上,最后3一个复制块存储在不同机架的某个节点上。注意,这里需要您了解集群架构。实际的事务并没有经过,只有表示和块的文件映射的元数据I/ONameNodeDataNode经过。当外部客户机发送请求要求创建文件时,会以块标识和该NameNodeNameNode块的第一个副本的地址作为响应。这个还会通知其他将要接DataNodeIPNameNode收该块的副本的DataNode。在一个称
6、为的文件中存储所有关于文件系统名称空间的信息。这个NameNodeFsImage文件和一个包含所有事务的记录文件(这里是)将存储在的本地文件EditLogNameNode系统上。文件也需要复制副本,以防文件损坏或系统丢和EditLogNameNodeFsImage失。DataNode也是一个通常在实例中的单独机器上运行的软件。集群包含NameNodeHDFSHadoop一个和大量通常以机架的形式组织,机架通过一个NameNodeDataNodeDataNode。交换机将所有系统连接起来。的一个假设是:机架内部节点之间的传输速度快于Hadoop机架间节点的传输速度。响应来
7、自客户机的读写请求。它们还响应创建、删除和复制来自DataNodeHDFS的块的命令。依赖来自每个的定期心跳(NameNodeNameNodeDataNodeheartbeat)消息。每条消息都包含一个块报告,可以根据这个报告验证块映射和其他文件NameNode系统元数据。如果不能发送心跳消息,将采取修复措施,重新复DataNodeNameNode制在该节点上丢失的块。文件操作文件操作文件操作文件操作并不是一个万能的文件系统。它的主要目的是支持以流的形式访问写入的大可见,HDFS型文件。如果客户机想将文件写到上,首先需要将该文件缓存到本地
此文档下载收益归作者所有