云计算hadoop:快速部署hadoop集群

云计算hadoop:快速部署hadoop集群

ID:31905760

大小:147.37 KB

页数:11页

时间:2019-01-26

云计算hadoop:快速部署hadoop集群_第1页
云计算hadoop:快速部署hadoop集群_第2页
云计算hadoop:快速部署hadoop集群_第3页
云计算hadoop:快速部署hadoop集群_第4页
云计算hadoop:快速部署hadoop集群_第5页
资源描述:

《云计算hadoop:快速部署hadoop集群》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、云计算Hadoop:快速部署Hadoop集群近来云计算越来越热门了,云计算已经被看作IT业的新趋势。云计算可以粗略地定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费。可以通过Internet访问“云”中的任何资源,而不需要担心计算能力、带宽、存储、安全性和可靠性等问题。  从企业的角度来说,日益增长的信息已经很难存储在标准关系型数据库甚至数据仓库中。这些问题提到了一些在实践中已存在多年的难题。例如:怎样查询一个十亿行的表?怎样跨越数据中心所有服务器上的所有日志来运行一个查询?更为复杂的问题是,大量需要处理的数据是非结构化或者半结构化的

2、,这就更难查询了。  “云计算”领域已经成为众多跨国IT巨头未来“决斗”的主战场。由于意识到“云计算”将是一场改变IT格局的划时代变革,几乎所有重量级跨国IT巨头从不同领域和角度开始在“云计算”领域扎根,这个阵营的主力包括Amazon、Google、IBM、Mircosoft、VMware、Cisoco、Intel、AMD、Oracle、SAP、HP、Dell、Citrix、Redhat、Novell、Yahoo等等。美国硅谷目前已约有150家涉及“云计算”的企业,新的商业模式层出不穷。  “云计算”庞大的市场规模超乎想象。按照最乐观估计,IDC推算未来

3、3年全球“云计算”领域将有8000亿美元的新业务收入。显然,全球各IT巨头竞相进入“云计算”领域背后的原因是未来天文数字般的市场规模以及由此带来的无比光明的发展前景。自2011年开始,各大IT企业已经展开一场硝烟滚滚的争夺战,以实现自己在“云计算”市场中未来的霸主地位。  Hadoop简介  ApacheHadoop是一个软件框架,它可以分布式地操纵大量数据。它于2006年首次提及,由Google、Yahoo!和IBM等公司支持。可以认为它是一种PaaS模型。  它的设计核心是MapReduce实现和HDFS(HadoopDistributedFileS

4、ystem),它们源自MapReduce(由一份Google文件引入)和GoogleFileSystem。  MapReduce是Google引入的一个软件框架,它支持在计算机(即节点)集群上对大型数据集进行分布式计算。它由两个过程组成,映射(Map)和缩减(Reduce)。  在映射过程中,主节点接收输入,把输入分割为更小的子任务,然后把这些子任务分布到工作者节点。  工作者节点处理这些小任务,把结果返回给主节点。  然后,在缩减过程中,主节点把所有子任务的结果组合成输出,这就是原任务的结果。  MapReduce的优点是它允许对映射和缩减操作进行分布

5、式处理。因为每个映射操作都是独立的,所有映射都可以并行执行,这会减少总计算时间。  对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是HDFS的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括NameNode(仅一个),它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储块。由于仅存在一个NameNode,因此这是HDFS的一个缺点(单点失败)。  存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的RAID架构大不相同。块的

6、大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。  NameNode是一个通常在HDFS实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode决定是否将文件映射到DataNode上的复制块上。对于最常见的3个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。注意,这里需要您了解集群架构。  实际的I/O事务并没有经过NameNode,只有表示DataNode和块的文件映射

7、的元数据经过NameNode。当外部客户机发送请求要求创建文件时,NameNode会以块标识和该块的第一个副本的DataNodeIP地址作为响应。这个NameNode还会通知其他将要接收该块的副本的DataNode。  NameNode在一个称为FsImage的文件中存储所有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件(这里是EditLog)将存储在NameNode的本地文件系统上。FsImage和EditLog文件也需要复制副本,以防文件损坏或NameNode系统丢失。  Hadoop实战  下面将一步一步演示如何部署一个5节点的集

8、群,并测试一下MapReduce分布式处理的强大功能。  1、应用场景  接下来

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。