云计算时代的数据存储与管理

云计算时代的数据存储与管理

ID:20476103

大小:156.58 KB

页数:6页

时间:2018-10-11

上传者:U-991
云计算时代的数据存储与管理_第1页
云计算时代的数据存储与管理_第2页
云计算时代的数据存储与管理_第3页
云计算时代的数据存储与管理_第4页
云计算时代的数据存储与管理_第5页
资源描述:

《云计算时代的数据存储与管理》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

云计算时代的数据存储与管理姓名:高小宁学号:116032910032云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联M来提供动态易扩展且经常是虚拟化的资源。美同同家标准与技术研究院(NIST)将艽定义为:“云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。”云计算时代面对的是海量的用户数据,如何对这些数据进行有效的管理是云计算需要解决的核心问题之一,本文主要对云计算时代的数据存储与管理技术进行了探索性的调研。一、云计算时代的数据存储特征分析云计算服务下的存储系统与传统的存储系统相比主要具有如下的不同点:云存储系统需要提供面向多种类型的网络在线存储服务,而传统的存储系统仅提供数据本地存储,易形成信息孤岛;云存储系统需耍考虑数据的安全、可靠、以及效率等指标,尤其在多用户,复杂网络环境K提供可靠的、高效的存储服务而临更人的挑战。凶此,为了构建高可靠存储系统,应充分划分元数据服务和文件服务集群粒度,合理分布数据(元数据)。通过服务聚合、服务均衡和服务接管等技术提高文件(元数据)服务集群的服务质量。为了构建高适用的存储系统,在云环境下的多态环境和众多复杂的应用程序屮,应建立一种而向应用的便捷的资源管理机制,通过针对具体;、V:用模式优化资源管理,进一步提供定制的资源管理服务机制。现在摆在云计算数据存储与管理面前的问题有很多,其屮最主要的问题奋三种,科学有效的管理大量数据,快速有效的寻找出所需的数据,准确查找到有用的数据。云数据管理是依据云计算延仲而来的,主要利用集群效应、分布式文件系统或网格技术等,把网络中的各种类型的存储设备通过;、V:用软件宥效整合,使 其协同工作,实现对用户提供据存储和业务访问功能。苏具冇海量性、异构性和不确定性等特点。二、云计算下的数据存储云计算系统采用分布式存储的方式存储数据,用冗余存储的方式保证数裾的可靠性。云计算系统中广泛使用的数据存储系统是Google的GFS和Hadoop1才|队开发的GFS的开源实现HDFS。GFS即Google文件系统(GoogleFileSystem),是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS的设计思想不同于传统的文件系统,是针对大规模数据处理和Google应用特性而设计的。它里然运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。一个GFS集群巾一个主服务器(master)和大量的块服务器(chunkserver)构成,并被许多客户(client)访问。主服务器存储文件系统所有的元数据,包拈名字空间、访问控制信息、从文件到块的映射以及块的当前位置。它还控制系统活动范围,如块租约(lease)管理,孤立块的垃圾收集,块服务器间的块迁移。主服务器定期通过心跳(HeartBeat)消息与每一个块服务器通信,并收集它们的状态信息。(1)GFS一个GFS集群由一个主服务器(master)和大量的块服务器(chunkserver)构成,并被许多客户(Client)访问。主服务器存储文件系统所以的元数据,包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。它也控制系统范围的活动,如块租约(lease)管理,孤儿块的垃圾收集,块服务器间的块迁移。主服务器定期通过HeartBeat消息与每一个块服务器通信,给块服务器传递指令并收集它的状态。GFS中的文件被切分为64MB的块并以冗余存储,每份数据在系统屮保存3个以上备份。客户与主服务器的交换只限于对元数据的操作,所有数裾方血的通信都直接和块服务器联系,这大大提高了系统的效率,防止主服务器负载过重。其体系结构如下: 粗拥估息图1GFS体系架构(2)HDFSHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。IIDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。W)FS放宽了一部分POSIX约朿,来实现流式读取文件系统数据的目的。HDFS在最开始是作为ApacheNutch搜索引擎项目的基础架构而开发的。HDFS是ApacheHadoopCore项目的一部分。HDFS宥着高容错性(fault-tolerant)的特点,井且设计用来部署在低廉的(low-cost)硬件上。而J1它提供高吞吐量(highthroughput)來访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streamingaccess)文件系统屮的数据。其体系架构如卜*: HDFS架构文件元数据信息读取DataNodesNameNodeReplicationRack2Rackl图2HDFS体系架构HDFS的体系结构如上图,从图中可以看出Namenode,Datanode,Client之间的通信都是建立在TCP/IP的基础之上的。当Client要执行一个写入的操作的时候,命令不是立刻就发送Namenode,Klj是Client先在本机上临时文件夹屮暂时保存这些数据,临时文件夹设宥一定的Block的值,通常默认是64M,只有当存在临吋文件夹中的数据块达到了这-限定值吋,Client方会通知NamenodeoNamenode便响应Client的RPC请求,将文件名插入到文件系统层次屮,并且在Datanode巾找到一块block用来存放该数据,同时将该Datanode及其对应的数据块信息发送到Client。Client便将这些本地临时文件夹屮的数据块写入指定的数据节点。HDFS为了提高系统的可靠性和可用性,采取了副本策略。HDFS的副本放置策略是三个副木而且三个副木分别放在木节点、同一机架屮的另一个节点、不同的机架中的一个节点三个不同的节*点上。当前版Hadoop巾还没有实现,但是正在进行中,相信不久就可以出来了。在Hadoop中,冇一个master节点和多个数据节点。客户端执行操作时,只需与master节点通信,获得所需要的文件操作信息,然后与数据节点通信,进行实际数据的传输。三、云计算下的数据管理技术海量数据管理是指对人规模数据的计算、分析和处理,如各种搜索引擎。以 互联网为计算T台的云计算能够对分布的、海暈的数据进行脊效可靠地处理和分析。因此,数据管理技术必需能够高效地管理大量的数据,通常数据规模达TB甚至PB级。云计算系统中的数掘管理技术主耍是Google的BT(BigTable)数损管理技术,以及Hadoop团队开发的开源数据管理模块HBase和Hive,作为基于Hadoop的开源数据工具,主要用于存储和处理海量结构化数据。BT是建立在GFS,Scheduler,LockService和MapReduce之上的一个大型的分布式数据犀,与传统的关系数据库不同,它把所冇数据都作为对象来处Google的很多项目使用BT来存储数损,包括网页査询,GoogleEarth和Google金融。这些皮用程序对BT的要求各不相同:数据大小(从URL到网页到卫星图像)不同,反应速度不同(从后端的大批处理到实吋数据服务)。对于不同的要求,BT都成功地提供了灵活高效的服务。(1)BigTableBigTable是Google基于GFS幵发的分亦式存储系统。Google的很多皮用数据,比如Gmail、GoogleMaps的海量结构化和半结构化数据都存储在BigTable上。BigTable采用列存储方式,通过对读取操作优化提高数据读取效率,其基本元素拈行、列族和时问戳等。与关系型数据库和比,BigTable对事务的支持能力有限,但有良好的扩展性。它支持以表的形式操作数据,并可以扩大到一个非常庞大的规模,储存量能够达到1024TB。在BigTable技术对数裾进行相应处理的过程中,会及吋将表划分到独立服务器中,同吋可以充分运用主服务器随时检(2)HBase从云计算出现一直到现在为止,冇一个较为典型的云数据管理解决办法就是HBase,其实它的数据系统同BigTable的特别相似,它们都属于那种开源式的数据库,这种技术主要是根据Changetal写的一•篇文章得来的。HBase不M于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase是GoogleBigtable的开源实现,类似GoogleBigtable利用GFS作为其文件存储系统,UBase利用UadoopllDFS作为其文件存储系统;Google运行 MapReduce来处理Bigtable中的海量数据,HBaseM样利用HadoopMapReduce来处理HBase巾的海量数据;GoogleBigtable利用Chubby作为协同服务,HBase利用Zookeeper作为对应。IIBasc位于结构化存储M,Iladoop11DFS为IIBasc提供了高卩J*靠性的底M存储支持,HadoopMapReduce为HBase提供了高性能的计算能力,Zookeeper为HBase提供了稳定服务和failover机制。此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase屮迁移变的非常方便。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭