hadoop权威指南总结

hadoop权威指南总结

ID:19723041

大小:3.84 MB

页数:165页

时间:2018-10-04

hadoop权威指南总结_第1页
hadoop权威指南总结_第2页
hadoop权威指南总结_第3页
hadoop权威指南总结_第4页
hadoop权威指南总结_第5页
资源描述:

《hadoop权威指南总结》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、目录Hadoop:TheDefinitiveGuid总结Chapter1~2初识Hadoop、MapReduce5Hadoop:TheDefinitiveGuid总结Chapter3Hadoop分布式文件系统11Hadoop:TheDefinitiveGuid总结Chapter4HadoopI/O23Hadoop:TheDefinitiveGuid总结Chapter5MapReduce应用开发36Hadoop:TheDefinitiveGuid总结Chapter6MapReduce的工作原理42Hadoop:TheDefinitiveGuid总结

2、Chapter7MapReduce的类型与格式51Hadoop:TheDefinitiveGuid总结Chapter8MapReduce的特性62Hadoop:TheDefinitiveGuid总结Chapter9构建MapReduce集群77Hadoop:TheDefinitiveGuid总结Chapter10管理Hadoop80Hadoop:TheDefinitiveGuid总结Chapter1~2初识Hadoop、MapReduce 1.数据存储与分析问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长

3、从多个磁盘上进行并行读写操作是可行的,但是存在以下几个方面的问题:1).第一个问题是硬件错误。使用的硬件越多出错的几率就越大。一种常用的解决方式是数据冗余,保留多分拷贝,即使一份数据处理出错,还有另外的数据。HDFS使用的也是类似的方式,但稍有不同。2).第二个问题是数据处理的相关性问题。例如很多分析工作在一快磁盘上处理出来的结果需要与其他磁盘上处理处理出来的结果合并才能完成任务。各种分布式系统也都给出了合并的策略,但是做好这方面确实是一个挑战。MapReduce提供了一种编程模型,他将从硬盘上读写数据的问题抽象出来,转化成对一系列键值对的计算简

4、而言之,Hadoop提供了一个可靠的存储和分析系统。存储又HDFS提供,分析由MapReduce提供。 2.与其他系统比较1).RDBMS为什么需要MapReduce?a.磁盘的寻道时间提高的速度低于数据的传输速度,如果数据访问模式由寻道时间支配的话,在读写数据集的一大部分的时候速度就会较流式读取慢很多,这样就出现了瓶颈。b.另一方面在更新数据集的少量数据的时候,传统的B-树工作的比较好,但是在更新数据集的大部分数据的时候B-树就显得比MapReduce方式慢了。MapReduce使用排序/合并操作去重建数据库(完成数据更新).c.MapRedu

5、ce比较适合于需要分析整个数据集,并且要使用批处理方式,特别是特定的分析的情况;RDBMS点查询方面占优势,或在已编制索引的数据集提供低延迟的检索和更新的数据,但是数据量不能太大。MapReduce适合一次写入,多次读取的操作,但是关系数据库就比较适合对数据集的持续更新。d.MapReduce比较适合处理半结构化,非结构化的数据e.MapReduce是可以进行线性扩展的编程模型。一个对集群级别的数据量而写的MapReduce可以不加修改的应用于小数据量或者更大数据量的处理上。更重要的是当你的输入数据增长一倍的时候,相应的处理时间也会增加一倍。但是

6、如果你把集群也增长一倍的话,处理的速度则会和没有增加数据量时候的速度一样快,这方面对SQL查询来说不见得是正确的。f.关系数据往往进行规则化以保证数据完整性,并删除冗余。这样做给MapReduce提出了新的问题:它使得读数据变成了非本地执行,而MapReduce的一个重要前提(假设)就是数据可以进行高速的流式读写。 2).GridCompuing网格计算a.MapReduce使数据和计算在一个节点上完成,这样就变成了本地的读取。这是MapReduce高性能的核心.b.MPI将控制权大大的交给了程序员,但是这就要求程序员明确的处理数据流等情况,而M

7、apReduce只提供高层次的操作:程序员只需考虑处理键值对的函数,而对数据流则是比较隐晦的。c.MapReduce是一种非共享(Shared-nothing)的架构,当MapReduce实现检测到map或者reduce过程出错的时候,他可以将错误的部分再执行一次。MPI程序员则需要明确的考虑检查点和恢复,这虽然给程序员很大自由,但是也使得程序变得难写。 3).志愿计算MapReduce是针对在一个高聚合网络连接的数据中心中进行的可信的、使用专用的硬件工作持续数分钟或者数个小时而设计的。相比之下,志愿计算则是在不可信的、链接速度有很大差异的、没有

8、数据本地化特性的,互联网上的计算机上运行永久的(超长时间的)计算, 3.天气数据集数据是NCDC的数据,我们关注以下特点:1) 数据是半

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。