hadoop概述及其发展简史.ppt

hadoop概述及其发展简史.ppt

ID:56431378

大小:407.00 KB

页数:15页

时间:2020-06-18

hadoop概述及其发展简史.ppt_第1页
hadoop概述及其发展简史.ppt_第2页
hadoop概述及其发展简史.ppt_第3页
hadoop概述及其发展简史.ppt_第4页
hadoop概述及其发展简史.ppt_第5页
资源描述:

《hadoop概述及其发展简史.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、HadoopintroductionHadoop是什么一个分布式系统基础架构用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。为什么需要Hadoop纽约证券交易所每天产生1TB的交易数据社交网站facebook的主机存储着约10亿张照片,占据PB级存储空间互联网档案馆存储着约2PB数据,并以每月至少20TB的速度增长。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。数据时代为什么需要Hadoop如何存储和分析多年来硬件存储容量快速增加的同时,访问速度——数据从硬盘读取的速度——

2、却未能与时俱进1990年1370MB4.4MB/s5min20年后1TB100MB/s150min为什么需要Hadoop从多个磁盘并行读写数据问题:硬件故障一旦开始使用多个硬件设施,其中一个会出故障的概率非常高通过系统保存数据的冗余副本,在故障发生时,可以使用副本HDFSB.合并大部分分析任务需要通过某种方式把数据合并起来不同的分布式系统可以组合多个来源的数据,但正确性的保证是一个挑战MapReduceHadoop提供了一个稳定的共享存储和分析系统。存储由HDFS实现,分析由MapReduce实现HDFSHDFS:为以流式数

3、据访问模式存储超大文件而设计的文件系统。HDFS建立的思想是:一次写入、多次读取模式是最高效的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。相较于其

4、他系统表1-1:关系型数据库和MapReduce的比较关系型数据库管理系统相较于其他系统由上表可看出:MapReduce比较适合以批处理的方式处理需要分析整个数据集的问题,尤其是自主或即时分析。RDBMS适用于“点查询”和更新,数据集被索引后,数据库系统能够提供低延迟的数据检索和快速的少量数据更新。MapReduce适合一次写入、多次读取数据的应用,而关系型数据库更适合持续更新的数据集。关系型数据库中数据集是高度结构化的数据,而MapReduce中的数据是非结构化数据。相信在不久的将来,关系型数据库系统和MapReduce系

5、统之间的差异很可能变得模糊。关系型数据库都开始吸收MapReduce的一些思路,另一方面,基于MapReduce的高级查询语言使MapReduce的系统更接近传统的数据库编程方式。相较于其他系统网格计算,即分布式计算,是高性能计算的一种高性能计算的方法是将作业分配给一个机器集群,这些机器访问共享文件系统,由一个存储区域网络(SAN)进行管理这非常适用于以主计算密集型为主的作业,但当节点需要访问的大数据量(数百GB的数据)时,这会成为一个问题,因为网络带宽成为“瓶颈”,所以计算节点闲置下来了网格计算相较于其他系统MapRedu

6、ce尝试在计算节点本地存储数据,因此数据访问速度会因为它是本地数据而比较快“数据本地化”成为MapReduce的核心功能并且也是它拥有良好性能的原因之一MapReduce将程序员从必须考虑失败任务的情况中解放出来,它检测失败的map或者reduce任务,在健康的机器上重新安排任务。MapReduce能够做到这一点,因为它是一个无共享的架构,这意味着各个任务之间彼此并不依赖。网格计算相较于其他系统志愿计算是指对人们(志愿者)为项目提供计算资源以进行分布式计算和或贮存的协调和安排。MapReduce与SETI@home的区别志

7、愿计算Hadoop发展简史Hadoop是ApacheLucene创始人DougCutting创建的Hadoop起源于ApacheNutch,一个开源的网络搜索引擎,它本身也是Lucene项目的一部分Hadoop发展简史ApacheHadoop项目MapReduce和HDFS最出名还有其他项目提供配套服务

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。