hadoop平台基准性能测试工具的设计与实现

hadoop平台基准性能测试工具的设计与实现

ID:32331786

大小:3.26 MB

页数:67页

时间:2019-02-03

hadoop平台基准性能测试工具的设计与实现_第1页
hadoop平台基准性能测试工具的设计与实现_第2页
hadoop平台基准性能测试工具的设计与实现_第3页
hadoop平台基准性能测试工具的设计与实现_第4页
hadoop平台基准性能测试工具的设计与实现_第5页
资源描述:

《hadoop平台基准性能测试工具的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、哈尔滨工业大学工程硕士学位论文第1章绪论1.1课题背景1.1.1课题来源本课题来源于国家863重大项目“云计算测试与评估系统研制”,主要完成该项目中Hadoop平台基准性能测试工具的研究与实现工作。Hadoop平台是当前云计算平台中最具有代表性的平台之一,因此Hadoop平台基准性能测试与评估工具的设计与实现是很有必要的。这不仅有助于云平台测试与评估系统的研制,而且可以具体的说明云计算测试与评估系统研制的方式方法。本课题通过对Hadoop分布式平台工作机制的研究,提出全面而又具有代表性的性能指标,并实现与之对应的基准性能测试工具套件,最终完成Hadoo

2、p平台性能测试和评估工作。1.1.2课题目的与意义[1]计算机技术已经深深影响了我们的工作、学习和生活,尤其云计算领域,是当前IT领域最热门的话题之一。它通过虚拟化技术将计算机资源整合为一个资源池,用户以按需分配的方式使用资源,这种集中管理不仅降低成本和能源消耗,而且可以提供了一种简单、可靠的服务供用户使用云计算平台。在产业界,各大IT公司在研究和开发相关云计算产品上投入大量的人力物[2]力;在学术界,政府和很多高校也十分重视对云计算技术的研究和投入。[3]Hadoop是当前云计算领域最具有代表性的平台之一,它的出现最初是受到[4][5]google发

3、布的MapReduce并行编程模型和GFS分布式文件系统的启发。现在已经从HadoopV1(Version1)版本发展到带有YARN资源管理组件的[6]HadoopV2版本。目前,Hadoop主要包括三个子项目组成:MapReduce、[7][8]HDFS和YARN。HadoopMapReduce是对Google提出MapReduce模型的开源实现,它可以完成大量数据在分布式集群的并行处理工作。HadoopDistributeFileSystem(HDFS)是对GFS的开源实现,它可以和MapReduce模型很好的结合并为分布式应用提供一个分布式存储系

4、统。YARN是HadoopV2版本中的一个资源管理平台,可以支持除了MapReduce编程框架的其他计算框架,并且可以更加高效的管理Hadoop平台资源的使用。基于HDFS分布式文件系统的容错性和高可伸缩性等特点,可以将Hadoop集群搭建在-1-哈尔滨工业大学工程硕士学位论文相对低廉的硬件平台。同样,MapReduce并行计算框架运行用户在不了解分布式底层细节的情况下编写并行应用程序。Hadoop平台的简单性、易用性和高效性使得其越来越广泛的被业界使用和研究。随着商业数据的日益增加,大数据处理平台一直在不断发展,相应的大[9]数据平台的评估工作也有待

5、提高和加强。Hadoop平台是一个底层技术对用户透明的分布式系统,用户可以在不了解MapReduce分布式框架的前提下编[10]写分布式程序。正是因为Hadoop平台的简单、易用特性,使得其被广泛应用。但是Hadoop用户在处理大数据类型工作时往往把如何开发MapReduce程序作业工作重点,而忽略了Hadoop平台使用效率方面的优化。有的用户虽然考虑到Hadoop平台的优化,但是由于Hadoop平台底层的运行机制对用户是透明的,使得缺乏经验的Hadoop用户很难入手。而且MapReduce程序中map和reduce函数可以以黑盒的方式加载,用非jav

6、a语言编写,如C++、[11]Pathon或者Ruby等,使得负载程序的分析变得复杂。Hadoop平台开发过程遇到的问题:Hadoop集群性能如何,Hadoop平台资源利用率如何,不同类型的MapReduce应用程序运行效率如何,对用户来说都是透明的,这些问题使得Hadoop平台相关性能的优化具有挑战性。虽然已经出现一些分布式平台测试工具,但是针对Hadoop平台的基准测试工具并不成熟,尤其针对刚出来不久的HadoopV2平台。现有的Hadoop[12][13]测试程序(如GridMix和Hive性能测试工具),由于多样性和代表性程序集的限制并不能很好

7、的评估Hadoop系统。例如,Yahoo采用过分简化的排[14]序程序TeraSort来评估不同的Hadoop系统只能测试MapReduce在排序方面的性能,对Hadoop平台的评估显得单一。如何简单、方便的监控Hadoop集群、清晰的显示Mapreduce运行过程、针对不同的类型负载参数应该如何设置等问题,针对这些问题的一个Hadoop平台全面分析工具少之又少。因此,开发一个可以监控Hadoop集群资源利用率,测试不同类型负载性能和Hadoop平台整体性能的测试工具套件是很有必要的。在了解Hadoop平台资源利用情况,了解MapReduce负载的性能

8、瓶颈,不仅有助于用户优化负载本身的性能,更可以提高Hadoop平台的整体使用效率。这样,用户可

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。