欢迎来到天天文库
浏览记录
ID:46328170
大小:74.50 KB
页数:7页
时间:2019-11-22
《云计算平台的搭建与研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、云计算平台的搭建与研究摘要:云计算是当前国内外比较热门的研究课题。Hadoop开源实现了谷歌公司的GFS(GoogleFileSystem),并且成为云计算平台的标准模型。本文在对Hadoop的核心组件HDFS和子项目HBase、Hive深入分析基础上,基于Hadoop+HBase+Hive搭建起云计算平台,经过实验证明云计算平台具有查询速度快和高容错性等特点。关键词:云计算;Hadoop;HDFS;HBase;Hive1引言为了解决大数据的存储和分析的问题,云计算[1]的解决方案应运而生。云计算综合了分布式
2、计算、并行计算、网格计算、网络存储技术、虚拟化技术和负载均衡等传统计算机技术。实质上,云计算就是通过虚拟化技术将相应的硬件资源和软件资源构建为虚拟化资源池,通过网络的方式,按照自身需要获取其中的资源,根据实际使用量来付费,并且不用管理他们。当前,云计算平台众多,但大多数是商业平台,而Hadoop是免费的,它开源实现了谷歌公司的GFS(GoogleFileSystem),采用Java语言编程,具有Java可移植性强等特点,从而为研究云计算提供了平台。2Hadoop介绍Hadoop[2]是Apache的一个开源分
3、布式系统架构,具有低存储成本、高效率、高容错性、高扩展性及高可移植性等主要优点,它可以在大量廉价的普通PC机器上搭建起分布式集群,通过分布式集群来存储和处理海量数据。ApacheHadoop项目包含许多个子项目,下面我们主要介绍本课题所用到的几个子项目。2.1HDFSHDFS[3](HadoopDistributedFileSystem)是Hadoop分布式文件系统,它采用主/从架构,由一个控制节点(Namenode)和多个数据节点(Datanode)组成。其中,控制节点是中心服务器,负责管理文件系统的命名空
4、间以及客户端对文件的操作,同时负责建立数据块和数据节点的映射关系。数据节点负责管理本节点上的存储,响应客户端的读写请求,同时在控制节点的统一指挥下进行数据块的创建、复制和删除。HDFS的工作流程及架构图如图1所示。在HDFS中,一个大文件其实被分成一个或多个数据块,数据块默认是64MB,存储在数据节点中,每个数据块都有一定数量的备份,备份数是可配置的,默认备份数是3。通过这种方式,来提高数据安全性和可靠性。2.1HBaseHBase(HadoopDatabase)是GoogleBigtable的开源实现,是一
5、个面向列的分布式数据库。HBase就是为存储和快速读取海量数据而专门设计的。利用HBase技术可在廉价的PC服务器上搭建起大规模存储集群。HBase不是传统的关系型数据库,它采用的是基于列存储模式而不是基于行存储模式,基于列存储的好处就是数据库中表的数据按每列存放在物理相邻的存储单元里,查询数据时只查询所在的列,不用把整行数据都读取出来,这样就能极大的降低I/O的开销。2.2HiveHive是建立在Hadoop基础上的一个数据仓库工具,它将结构化数据文件映射成一张数据表,并提供了类似SQL语句的查询功能,通过
6、类似SQL语句直接编译成MapReduce任务,对于那些不熟悉MapReduce编程模型的用户有很大的帮助。Hive主要由以下几部分组成:用户接口:Client,CLI和WUlo其中常用的接口是CLI。元数据存储:为了避免多个用户建立不同的元数据,Hive将元数据存储在共享的数据库服务器中,如mysql、derby。元数据包括表名,表的属性,表的列属性,表的数据所在目录等。解释器、编译器、优化器、执行器:前三个器完成类SQL语句从词法分析、语法分析、编译、优化及查询计划的生成。生成的查询计划存储在HDFS中,
7、由执行器调用执行。Hadoop:Hive的数据都存储在HDFS中,大部分查询是由MapReduce完成的。3云计算平台的搭建步骤3.1硬件和软件配置云计算平台由一个控制节点(Namenode)和三个数据节点(Datanode)组成,每个节点就是一台普通的PC服务器。所有节点都配置ubuntul0.04版本的Linux操作系统,Hadoopl.0.4的集群框架,JDK1.6.29的JAVA环境。3.2Hadoop、HBase、Hive环境配置配置Hadoop、HBase、Hive环境首先需要配置Hadoop中的
8、几个文件:hadoop-env.sh>hdfs-site.xml>core-site.xml>hbase-env.sh、hbase-site.xml>regionservers、hive-env.sh、hive-site.xml,具体酉己置参见文献⑸。1.3HBase数据库设计我们在userinfo表中添加1亿条数据,以便进行下面的性能比较。具体数据库设计如下Userinfo表所ZjlOUserin
此文档下载收益归作者所有