普开数据马延辉《hadoop基础教程》之初识hadoop

普开数据马延辉《hadoop基础教程》之初识hadoop

ID:42820262

大小:218.50 KB

页数:5页

时间:2019-09-22

普开数据马延辉《hadoop基础教程》之初识hadoop_第1页
普开数据马延辉《hadoop基础教程》之初识hadoop_第2页
普开数据马延辉《hadoop基础教程》之初识hadoop_第3页
普开数据马延辉《hadoop基础教程》之初识hadoop_第4页
普开数据马延辉《hadoop基础教程》之初识hadoop_第5页
资源描述:

《普开数据马延辉《hadoop基础教程》之初识hadoop》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、普开数据马延辉《hadoop基础教程》之初识hadoopHadoop-直是我想学习的技术,正巧最近项目组要做电子商城,我就开始研究Hadoop,虽然最后鉴定Hadoop不适用我们的项目,但是我会继续研究下去,技多不压身。《Hadoop基础教程》是我读的第一本Hadoop书籍,当然在线只能试读第一章,不过对Hadoop历史、核心技术和应用场景有了初步了解。Hadoop历史雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和W

2、eb爬虫。随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)oGFS也就是googleFileSystem,google公司为了存储海量搜索数据而设计的专用文件系统。2004年Nutch创始人DougCutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。2004年Google又发表了一篇技术学术论文MapReduceMapReduc是e一种编程模型,用于大规模数据集(大于1TB)的并行分析运算。2005年DougCutting又基于MapReduce在Nutch搜索引擎实现

3、了该功能。2006年,Yahoo雇用了DougCutting,DougCutting将NDFS和MapReduc升级命名为Hadoop,丫ahoo开建了一个独立的团队给GougCutting专门研究发展Hadoop。不得不说Google和Yahoo对Hadoop的贡献功不可没。Hadoop核心Hadoop的核心就是HDFS和MapReduce而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗卞有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduc发展出来的。要想了解Hadoop,就

4、必须知道HDFS禾口MapReduc暑什么。HDFSHDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提祺高吞吐量的数据访问,适合那些有着超大数据集(largedataset)的应用程序。HDFS的设计特点是:1>大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时

5、从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多得都。3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。4、廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。5、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。H

6、DFS的关键元素:Block:将一个文件进行分块,通常是64MoNameNod:e保存整个文件系统的目录信息、文件信息及分块信息,这是由唯一*—台王机专门保存,当然这台王机如果出错,NameNod就失效了。在Hadoop2f开始支持activity-standy模式一如果主NameNode失效,启动备用主机运行NameNodeDataNode:分布在廉价的计算机上,用于存储Block块文件。NameNodeMapReduce通俗说MapReduc是一套从海量・源数据提取分析元素最后返回结黨集的编程模型,将文件分布式存储到

7、硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduc做的事了。下面以一个计算海量数据最大值为例:一个银行有上亿储户,银行希望找到存储金额最高的金额是多少,按照传统的计算方式,我们会这样:ReduceJava代码Longmoneys[]•…Longmax=OL;for(inti=0;imax){}max=moneys[i];}Longmoneys[]Longmax=OL;for(inti=0;i

8、){max){}}max=moneys[i];如果计算的数组长度少的话,这样实现是不会有««海量数据的时候就会有题MapReduc倉这样做:首先数字是分布存储在不同块中的,M个块为AMap,计算出Map中最大的值,然后将每个Map中的最大值做Reduce操作,Reduce再寂最

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。