欢迎来到天天文库
浏览记录
ID:41294737
大小:23.82 KB
页数:7页
时间:2019-08-21
《Hadoop介绍与部署》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、Hadoop介绍与部署1、Hadoop介绍12、部署步骤21、Hadoop介绍分布式计算最重要的一个设计点:MovingComputationisCheaperthanMovingData。就是在分布式处理中,移动数据的代价总是高于转移计算的代价。简单来说就是分而治之的工作,需要将数据也分而存储,本地任务处理本地数据然后归总,这样才会保证分布式计算的高效性。Hadoop是Apache开源组织的一个分布式计算开源框架。分布式计算中具体的计算任务交由哪一台机器执行,执行后由谁来汇总,这都由分布式框架的Master来抉择,而使用者只需简单地将待分析内容提供给分布式计算系统作为输入,就可以得到分
2、布式计算后的结果。Hadoop框架中最核心的设计就是:MapReduce和HDFS,一句话解释MapReduce就是“任务的分解与结果的汇总”;HDFS是Hadoop分布式文件系统(HadoopDistributedFileSystem)的缩写,为分布式计算存储提供了底层支持。MapReduce从它名字上来看就大致可以看出个缘由,两个动词Map和Reduce,“Map(展开)”就是将一个任务分解成为多个任务,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果。在程序设计中,一项工作往往可以被拆分成为多个任务,任务之间的关系可以分为两种:一种是不相关的任务,可以并行执
3、行;另一种是任务之间有相互的依赖,先后顺序不能够颠倒,这类任务是无法并行处理的。任务分解处理以后,那就需要将处理以后的结果再汇总起来,这就是Reduce要做的工作。1、部署步骤1.在所有的机器上都建立相同的目录,也可以就建立相同的用户,以该用户的home路径来做hadoop的安装路径。例如我在所有的机器上都建立了/home/wenchu。2.下载Hadoop,先解压到Master上。这里我是下载的0.17.1的版本。此时Hadoop的安装路径就是/home/wenchu/hadoop-0.17.1。3.解压后进入conf目录,主要需要修改以下文件:hadoop-env.sh,hadoop
4、-site.xml、masters、slaves。Hadoop的基础配置文件是hadoop-default.xml,看Hadoop的代码可以知道,默认建立一个Job的时候会建立Job的Config,Config首先读入hadoop-default.xml的配置,然后再读入hadoop-site.xml的配置(这个文件初始的时候配置为空),hadoop-site.xml中主要配置你需要覆盖的hadoop-default.xml的系统级配置,以及你需要在你的MapReduce过程中使用的自定义配置(具体的一些使用例如final等参考文档)。以下是一个简单的hadoop-site.xml的配置
5、:fs.default.name//你的namenode的配置,机器名加端口hdfs://10.2.224.46:54310/mapred.job.tracker/
6、/你的JobTracker的配置,机器名加端口hdfs://10.2.224.46:54311/dfs.replication//数据需要备份的数量,默认是三1hadoop.tmp.dir//Hadoop的默认临时路径,这个最好配置,如果在新增节点或者其他情况下莫名其妙的DataNode启动不了,就删除此文件中的tmp目录即可。不过如果删除了NameNode机器的此目录,那么就需要重新执行Nam
7、eNode格式化的命令。/home/wenchu/hadoop/tmp/mapred.child.java.opts//java虚拟机的一些参数可参照配置-Xmx512mdfs.block.size//block的大小,单位字节,后面会提到
此文档下载收益归作者所有