分布式文件存储系统研究及应用

分布式文件存储系统研究及应用

ID:14381751

大小:2.31 MB

页数:50页

时间:2018-07-28

分布式文件存储系统研究及应用_第1页
分布式文件存储系统研究及应用_第2页
分布式文件存储系统研究及应用_第3页
分布式文件存储系统研究及应用_第4页
分布式文件存储系统研究及应用_第5页
资源描述:

《分布式文件存储系统研究及应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、《分布式存储系统研究和应用实践》分布式存储系统研究和应用实践二〇一二年二月-49-《分布式存储系统研究和应用实践》摘要物质、能量和信息是自然科学研究的三个基本对象,处理、传输和存储是信息计算的三大基本任务。随着网络技术及信息处理技术的不断发展,个人数据和企业数据的产生量呈现爆炸性膨胀的趋势,IT系统正面临着海量数据存储成本高、管理困难、可靠性低的问题,为了充分利用资源,减少重复的投资,数据存储作为IT系统的主要架构和基础设施之一,逐步被作为一个完整的系统从IT系统中独立出来,分布式存储系统因为具有海量数据存储、高扩展性、高性能、高可靠性、高可用性

2、的特点,目前正被作为企业海量数据存储方案被业界所广泛讨论和应用。因此对于分布式存储系统的研究不仅紧跟目前发展的趋势,而且具有较高的应用价值。本文基于对分布式存储系统的研究,旨在通过在网络环境下构建具有高传输性能、高可靠性、高可用性的网络分布式文件系统,通过网络数据流方式实现对海量文件系统中的数据进行存储和访问,解决大规模非结构化数据的存储、查询、高性能读取、高容错性的问题,为IT系统提供高性能、高可靠性、高可用性的存储应用服务,并为今后的分布式计算研究提供技术基础。本文阐述的主要内容如下:(1)分布式架构的相关理论以及分布式存储系统的应用现状,介

3、绍了分布式存储系统概念;(2)然后引入开源项目Hadoop的HDFS分布式文件系统,接着对HDFS关键运行机制进行了详细分析;(3)并在此基础上,通过搭建基于HDFS0.23版本的实验环境进行实际的测试验证,采集实验数据,并对实验结果作出进一步的分析总结,得到理论和实际结合的第一手资料;(4)最后,通过结合实际需求,在对医学影像中心业务分析的基础上,对医学影像中心存储体系、功能结构及运行环境进行了设计和规划。关键词:分布式存储系统、HDFS、Hadoop-49-《分布式存储系统研究和应用实践》第一章绪论1.1背景说明IDC的一项预测曾指出,“数字

4、宇宙”(digitaluniverse)项目统计得出,2006年的数据总量为0.18ZB,并预测在2011年,数据量将达到1.8ZB。1ZB等于10的21次方字节,或等于1000EB,1,000,000PB,或者大家更熟悉的10亿TB的数据。这相当于世界上每人一个磁盘驱动器所能够容纳的数据的数量级。在如此强大的需求下,对海量存储容量、高性能、高安全性、高可用性、可扩展性、可管理性的存储的要求不断提高。1.1.1.关于磁盘存储目前的情况是,磁盘存储容量快速增加的同时,其访问速度-磁盘数据读取速度却未能与时俱进。目前,普通的1TB磁盘,其传输速率约为

5、100MB/S左右,写入则更慢,而10年前,10G的磁盘,其传输速率也有66M/s,即便换成基于闪存的SSD固态硬盘,也只是将读取速度提高3倍、写入速度提高1.5倍而已,甚至最先进的光纤通道硬盘,和内存的读取和写入数据的速率相比也不在一个数量级上。一个简单的减少磁盘读取时间的方法就是同时从多个磁盘上读取数据,假设,我们拥有100个磁盘,每个磁盘存储1%的数据,并行读取,所需要的读取时间,也相当于原来的1%左右。这种方法称之为条带化存储(Strip),是RAID(RedundantArrayofIndependentDiskes,独立磁盘冗余阵列)

6、技术的一项重要特性,通过使用一组磁盘同时进行I/O操作,从而获得更大的I/O吞度量,并依靠存储冗余信息(镜像+奇偶校验)来保障数据的安全性。例如RAID10模式,数据块被分别以位或字节为单位进行分割并且并行读/写,同时,为每一块磁盘作磁盘镜像进行冗余,既保证了最高的读写存储性能,又通过镜像保护了数据,缺点是磁盘利用率比较低。设置RAID10至少需要安装4块硬盘,当把4块磁盘设置成RAID10后,每一对磁盘被设置成镜像,每一对磁盘之间被设置成条带以便数据快速传输。下图为RAID10的数据分布及镜像示意。-49-《分布式存储系统研究和应用实践》1.1

7、.1.网络存储应用除了个人PC机的本地存储,企业的大多数的存储应用,都是基于局域网或者广域网的文件共享和存储,目前很多简易的局域网内的文件共享和存储应用都是基于文件服务器,主要的功能是提供网络用户访问共享文件,通常是C/S模式,基于FTP或TCP/IP连接。这样的存储服务器,在访问的高峰期,单机IO负载很大,不能充分使用网络带宽,而且扩展性差,可靠性和容错能力需要依靠硬件来完成,比如RAID的磁盘阵列。随着网络技术的发展,网络的带宽已经超过了磁盘的带宽,现在,很多存储系统方案采用网络存储的技术来解决传统存储的问题,针对I/O是整个网络系统效率低下

8、的瓶颈问题,最有效地方法是将数据从通用的服务器中分离出来,进行集中管理,形成所谓的存储网络。其中又有两种不同的实现手段,NAS(网络附加

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。