欢迎来到天天文库
浏览记录
ID:33159971
大小:622.00 KB
页数:53页
时间:2019-02-21
《[计算机软件及应用]hadoop入门》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、Hadoop入门(2011年7月)目录1概述41.1什么是Hadoop?41.2为什么要选择Hadoop?51.2.1系统特点51.2.2使用场景52术语53Hadoop的单机部署63.1目的63.2先决条件63.2.1支持平台63.2.2所需软件63.2.3安装软件73.3下载73.4运行Hadoop集群的准备工作73.5单机模式的操作方法73.6伪分布式模式的操作方法83.6.1配置83.6.2免密码ssh设置93.6.3执行94Hadoop集群搭建过程手记124.1免密码SSH设置124.2Hado
2、op软件安装124.3Master(85)配置134.4Slave(60,245上)配置144.5初始化和启动hadoop集群154.5.1初始化文件系统154.5.2启动Hadoop154.5.3停止Hadoop174.6测试174.7管理界面与命令194.7.1hdfs运行状态界面194.7.2Map-reduce的运行状态界面204.7.3直接的命令行查看204.7.1运行的进程查看215架构分析235.1HDFS235.1.1HDFS的三个重要角色245.1.2HDFS设计特点255.2MapRe
3、duce265.2.1算法介绍265.2.2Hadoop框架下的mapreduce285.3综合架构分析296Hadoop的应用317系统维护317.1Hadoop的系统监控317.2Hadoop中的命令(Command)总结327.3NameNode与JobTracker单点故障说明327.4经验总结327.5如何在一个hadoop集群新增或删除一些机器而不重启337.5.1新增节点337.5.2删除节点347.6其它日常问题说明367.6.1datanode启动失败,各slave节点的namespac
4、eIDs与masters不同367.6.2taskTracker和jobTracker启动失败377.6.3ShuffleError:ExceededMAX_FAILED_UNIQUE_FETCHES;bailing-out377.6.4Toomanyfetch-failures387.6.5能够启动datanode,但无法访问,也无法结束的错误387.6.6java.io.IOException:Couldnotobtainblock:387.6.7java.lang.OutOfMemoryError:
5、 Java heapspace387.6.8解决hadoopOutOfMemoryError问题:397.6.9Hadoopjava.io.IOException:397.7防火墙的端口开放要求397.7.1与HDFS有关的地址及端口属性397.7.2与MapReduce 有关的地址及端口属性418附录428.1hadoop历史428.2Hadoop大记事438.3Hadoop的几个主要子项目448.4官方集群搭建参考448.4.1配置文件448.4.2集群配置说明441概述作什么事情之前,第一步是要知道
6、What(是什么),然后是Why(为什么),最后才是How(怎么做)。避免将技术误用于不适合的场景,这一点非常重要。1.1什么是Hadoop?Hadoop由ApacheSoftwareFoundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由GoogleLab开发的MapReduce和GoogleFileSystem的启发。2006年3月份,MapReduce和NutchDistributedFileSystem(NDFS)分别被纳入称为Hadoop的项目中。
7、Hadoop并不仅仅是一个用于存储的分布式文件系统,而是设计用来在由通用计算设备组成的大型集群上执行分布式应用的基础框架。它由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。下图是Hadoop的体系结构:Hadoop框架中最核心的设计就是:MapReduce和HDFS。1)MapReduce的思想是由Google的一篇论文所提及而被广为流传的,简单的一句话解释Map
8、Reduce就是“任务的分解与结果的汇总”。2)HDFS是Hadoop分布式文件系统(HadoopDistributedFileSystem)的缩写,为分布式计算存储提供了底层支持。1.2为什么要选择Hadoop?1.2.1系统特点下面列举hadoop主要的一些特点:1)扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。2)成本低(Economical):可以通过普通机器组成的服务器群来
此文档下载收益归作者所有