Hadoop云计算平台实验报告.pdf

Hadoop云计算平台实验报告.pdf

ID:53010909

大小:2.84 MB

页数:30页

时间:2020-04-11

Hadoop云计算平台实验报告.pdf_第1页
Hadoop云计算平台实验报告.pdf_第2页
Hadoop云计算平台实验报告.pdf_第3页
Hadoop云计算平台实验报告.pdf_第4页
Hadoop云计算平台实验报告.pdf_第5页
资源描述:

《Hadoop云计算平台实验报告.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Hadoop云计算平台实验报告金松昌11069010唐明圣11069033尹洪11069069实验目标1.掌握Hadoop安装过程2.理解Hadoop工作原理3.测试Hadoop系统的可扩展性4.测试Hadoop系统的稳定性5.测试Hadoop系统的可靠性实验原理1.Hadoop工作原理Hadoop是Apache开源组织的一个分布式计算框架,可以在大量廉价的硬件设备组成集群上运行应用程序,为应用程序提供一组稳定可靠的接口,旨在构建一个具有高可靠性和良好扩展性的分布式系统。Hadoop框架中最核心的设计就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇论文

2、所提及而被广为流传的,简单的一句话解释MapReduce就是“任务的分解与结果的汇总”。HDFS是Hadoop分布式文件系统(HadoopDistributedFileSystem)的缩写,为分布式计算、存储提供了底层支持。HDFS采用C/S架构,对外部客户机而言,HDFS就像一个传统的分级文件系统。可以对文件执行创建、删除、重命名或者移动等操作。HDFS中有三种角色:客户端、NameNode和DataNode。HDFS的结构示意图见图1。NameNode是一个中心服务器,存放着文件的元数据信息,它负责管理文件系统的名字空间以及客户端对文件的访问。DataNode节点负责管理它所在节点

3、上的存储。NameNode对外暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,文件被分成一个或多个数据块,这些块存储在一组DataNode上,HDFS通过块的划分降低了文件存储的粒度,通过多副本技术和数据校验技术提高了数据的高可靠性。NameNode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体DataNode节点的映射。DataNode负责存放数据块和处理文件系统客户端的读写请求。在NameNode的统一调度下进行数据块的创建、删除和复制。图1HDFS体系结构示意图客户端要访问一个文件,首先从NameNode获得组成文件

4、的数据块的位置列表;然后直接与相应的DataNode建立连接并读取文件数据。数据流不经过NameNode节点。Hadoop通过MapReduce进行海量数据处理,它是一个并行处理大规模数据的软件框架。MapReduce的设计思想基于“移动计算靠近存储”,在面向海量数据处理的技术中,通过网络将数据传输到用于计算的节点所消耗的开销远大于处理数据所需要的开销,而MapReduce将数据的处理任务交给了存储该数据的节点,避免了数据传输所带来的开销。MapReduce的根源是函数性变成种的map和reduce函数,它由两个包含多个实例(许多的Map和Reduce)的操作组成。Map函数接收一组数

5、据并将其转换成一个键/值对列表,输入域中的每个元素对应于一个键/值对。Reduce函数接收Map函数生成列表,然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表。MapReduce的数据处理流程示意图如图2所示:MapReduce也采用C/S架构,其中JobTracker负责作业调度,TaskTracker负责任务执行。用户提交基于MapReduce变成规范的作业之后,JobTracker根据作业的输入数据的分布情况(在HDFS之中),将Map任务指派到存储这些数据块的DataNode上执行(DataNode也充当了TaskTracker),Map完成之后会根据用户提交的Re

6、duce任务数对中间结果进行分区存储在Map任务节点本地的磁盘,执行Reduce任务的节点(由JobTracker指派)通过轮询的方式从各Map节点拉取Reduce的输入数据,并在Reduce任务节点的内存进行排序后进行合并作为reduce函数的输入,输出结果又输出到HDFS中进行存储。排序Map分片0复制合并HDFSreduce分区0副本分片1MapHDFSreduce分区1副本分片2Map图2MapReduce数据处理流程示意图除了HDFS和MapReduce这两个核心子项目之外,Hadoop还包括Hbase和Hive以及Pig、ZooKeeper、Avro、Chukwa等项目。其

7、中Hbase是一个分布式的基于列(列族)存储的数据库,它使用HDFS作为底层存储,同时支持MapReduce的批量是计算和点查询。Hive一个分布式的数据仓库,使用HDFS进行数据存储,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用于查询数据。2.实验设计本实验主要是针对Hadoop系统的可扩展性、稳定性、可靠性,其中主要针对HDFS进行测试,最后给出MapReduce的一个词频统计的实例。2.1可扩展性Hadoop系

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。