云计算中的数据管理关键技术及其应用

云计算中的数据管理关键技术及其应用

ID:23755458

大小:54.00 KB

页数:5页

时间:2018-11-10

云计算中的数据管理关键技术及其应用_第1页
云计算中的数据管理关键技术及其应用_第2页
云计算中的数据管理关键技术及其应用_第3页
云计算中的数据管理关键技术及其应用_第4页
云计算中的数据管理关键技术及其应用_第5页
资源描述:

《云计算中的数据管理关键技术及其应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、云计算中的数据管理关键技术及其应用本文提出了一种基于云计算技术进行管理和存储海量数据模型,构建了海量数据存储云计算平台解决方案。针对Hadoop的文件系统HDFS(HadoopDistributedFileSystem)和计算模型MapReduce进行深入分析和研究的基础上,建立基于Hadoop平台的云存储平台。关键词:海量数据存储;Hadoop;云计算随着信息化的普及、互联X和存储技术的发展以及传感器、RFID等各种先进信息采集技术的成熟,收集和存储以指数级规模增长的数据资源成为可能,这些数据的存储与管理将会面临巨大的问题。云计算是在超大规模

2、分布式系统,他对外提供数据存储与节点计算能力,基于云计算环境下的数据管理、数据存储、分布式计算都是其核心部分。1.平台总体设计1.1平台总体框架结构  结合海量数据各种特点,结合系统运维的角度考虑,系统设计拟采用多层结构设计,易于扩展维护。数据分为元数据和数据,元数据和数据即可在独立的HTTP请求中传输,也可在同一个HTTP请求中传输。传输协议采用HTTP或者HTTPS。在完成整体设计中需要考虑云存储的数据模型,安全访问控制以及备份策略,系统结构如图1所示:图1平台结构图  表示层:提供用户操作页面,不同用户可根据自己的权限做各种不同的操作,例

3、如一般用户可以进行页面浏览与数据查询,管理员系统维护等操作可[2]。  业务层:并行处理海量数据。  数据层:存储数据。1.2平台总体功能设计  从系统功能角度考虑,可以将整个系统分三层。图2系统分层结构设计  数据库访问层:使用访问引擎作为数据访问层,只是单纯的对数据进行增,删,改,查询和判断存在等等较通用的数据访问方法,不应该有“事务”存在。  数据处理层:数据处理层是在数据访问层和表示层之间进行数据交换的桥梁,按业务需求调用数据访问层中的方法组合,集合了各种业务规则到一个BLL中,BLL都是以类库的形式来实现的。  业务表示层:表示层是为

4、客户提供用于交互的应用服务图形界面,帮助用户理解和高效地定位应用服务,呈现业务逻辑层中传递的数据,用图形界面来实现。1.3平台X络拓扑结构  为了避免海量数据重复存储并降低系统规模,以及针对数据源相对稳定、数据质量较高、用户创新需求演化缓慢等外界客观条件,研究海量源数据与管理系统相分离的体系架构,实现海量基础数据的分布式存储和核心数据的集约化管理并优化各类系统操作的能耗。  分布存储针对系统中维护的三类数据及其处理方式,包括原始非结构化基础数据的抽取融合分析、结构化核心数据的关联查询、用户个性化模式元数据的规范化及归约化处理,研究有针对性的分布

5、式存储机制,包括集群节点间的数据布局、节点内部的数据布局,优化磁盘I/O和X络传输;分布式管理方式,包括分布式离线分析、实时查询处理的调度方式以及规则,优化处理的容错性、可靠性;分布式索引策略,包括基础数据的分类索引、核心数据的范围索引等,优化数据的检索时间。2.云计算海量数据存储平台开发2.1Hadoop分布式文件系统  HDFS采用master/slave架构。一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode

6、在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作,同时决定block到具体Datanode节点的映射。Datanode在Namenode的指挥下进行block的创建、删除和复制。体系结构如图4所示:图3HDFS文件系统结构  HDFS支持传统的层次型文件组织,与大多数其他文件系统类似,用户可以创建目录,并在其间创建、删除、移动和重命名文件。HDFS不支持userquotas和访问权限,也不支持链

7、接(link),不过当前的架构并不排除实现这些特性。Namenode维护文件系统的namespace,任何对文件系统namespace和文件属性的修改都将被Namenode记录下来。应用可以设置HDFS保存的文件的副本数目,文件副本的数目称为文件的replication因子,这个信息也是由Namenode保存。2.2MapReduce编程  Map/Reduce是Hadoop的核心计算模型,它将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数,Map和Reduce,这是一个令人惊讶的简单却又威力巨大的模型。其它的并行编程中的种种复杂

8、问题,如分布式存储,工作调度,负载平衡,容错处理,X络通信等,均由MapReduce框架负责处理。  基于MapReduce计算模型编写分布式并行程序

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。