基于hdfs存储服务系统探究与应用

基于hdfs存储服务系统探究与应用

ID:5941033

大小:29.50 KB

页数:7页

时间:2017-12-29

基于hdfs存储服务系统探究与应用_第1页
基于hdfs存储服务系统探究与应用_第2页
基于hdfs存储服务系统探究与应用_第3页
基于hdfs存储服务系统探究与应用_第4页
基于hdfs存储服务系统探究与应用_第5页
资源描述:

《基于hdfs存储服务系统探究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于HDFS存储服务系统探究与应用  摘要:本文研究对象是云计算的分布式存储技术,通过构建基于HDFS的云存储服务系统来解决海量数据的存储难题,降低实施分布式存储系统的成本。关键词:Hadoop;HDFS;云存储;中图分类号:TP3文献标识码:A文章编号:1671-7597(2013)0110207-011引言互联网基础建设和普及的时代已经过去,移动互联、三网合一使得网络的涵盖范围更加广泛。通过网络访问非本地的计算服务(包括数据处理、存储和信息服务等)的条件越来越成熟,使用频率也越来越高。面对当前PB级的海量数据存储需求传统的SAN、NAS或IP存储在容量、可靠性、自治性和性能的

2、扩展等方面已不能满足当前数据存储和管理要求。如受到物理设备(异构的存储机构、磁盘驱动器的数量、内存大小和控制器性能等)的限制,会造成许多功能上的限制,系统遇到瓶颈时不断地要求用户升级到更大的存储系统或添加更多的存储管理设备,从而增加了成本。云计算架构的分布式存储技术能充分利用其技术,结合超大规模、高可扩展性、廉价性、高可靠性等特点来满足当前PB级的海量数据存储管理要求。7本文研究的HDFS分布式文件系统(HadoopDistributedFileSystem)是GoogleFileSystem文件系统的开源实现。2HDFS分布式文件系统设计目标Hadoop是Aapche开源组织的

3、一个分布式计算框架,为应用程序提供了一组稳定可靠的接口,用于构建一个高性能、高可用性、稳定、可扩展的系统,底层可实现HDFS分布式文件系统。其设计成适合运行在普通硬件上的文件系统,为Hadoop分布式计算存储提供底层支持。HDFS是分布式计算中数据存储管理的基础。其设计目标如下:1)硬件故障是常态。HDFS由成百上千的节点组成,每个节点随时都可能出现故障,节点的错误检测并快速自动恢复是设计核心的目标。2)流式数据访问。运行在HDFS上的应用以流式数据读取为主,重点在于做批量数据处理而不是专注于用户交互处理,更关注数据的高吞吐量。3)大规模数据集。HDFS的文件大小一般在GB级至T

4、B级,为了保证整体上比较高的数据传输速率,将一个集群扩展到数百甚至更多个节点。4)简单一致性模型。HDFS应用程序需要对文件实行一次写、多次读的访问模式。文件一经创建、写入和关闭之后就不需要在更改了。75)移动计算比移动数据更划算。移动计算可以减少网络的拥塞和提高系统的吞吐量。HDFS提供了接口,以便让程序将自己移动到数据存储的地方执行。3HDFS数据存储的实现3.1数据组织和交互HDFS架构采用Master/Slave模式,一个集群由一个NameNode和多个DateNode组成。在集群中只有一个NameNode结点管理集群文件系统的名字空间;管理客户端对集群中的文件的访问;管

5、理DataNode节点的状态报告。在集群中DataNode节点可存在多个,一个节点对应一个实例。数据节点进程的任务是:1)负责管理所在节点上存储的数据的读写。系统客户端需要请求对指定数据节点进行读写操作,DataNode作为数据节点的服务进程来与文件系统客户端打交道。数据节点进程在NameNode的统一指挥调度下完成,NameNode交互过程中收到了可以执行文件块的相关操作命令后让文件系统客户端执行指定的操作。具体文件的操作不是DataNode来完成,经过NameNode许可后,文件系统客户端进程来执行实际操作。2)心跳检测。每个DataNode节点会周期性地向NameNode7

6、发送心跳信号和文件块状态报告,以便NameNode获取到工作集群中DataNode节点状态的全局视图,从而掌握它们的状态。如存在DataNode节点失效的情况,NameNode会调度其它DataNode执行失效结点上文件块的复制处理,保证文件块的副本数达到规定数量。3)数据的流水线复制。当客户端从NameNodeJobTracker进程获取到要进行复制的Block块列表(列表中包含指定副本的存放位置,即某个DataNode节点)后,将客户端缓存的文件块复制到第一个DataNode节点上,并非整个块都复制到第一个DataNode完成以后才复制到第二个节点上,由第一个DataNode

7、向第二个DataNode节点复制,……如此下去完成文件块及其块副本的流水线复制。在集群中,存在三个主要的进程:NameNode进程、DataNode进程和文件系统客户端进程,这三个进程之间都是基于Hadoop实现的RPC机制进行通信的,RPC模型基于Client/Server模式进行通信。3.2HDFS节点故障系统通过数据副本、节点故障、数据校验、垃圾回收机制来保证数据的可靠性和一致性。集群故障包括NameNode和DataNode节点故障。NameNode出错主要可以通过以下两

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。