资源描述:
《mapreduce并行计算技术发展地的综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、实用标准文案MapReduce并行计算技术发展综述摘要:经过几年的发展,并行编程模型MapReduce产生了若干个改进框架,它们都是针对传统MapReduce的不足进行的修正或重写.本文阐述和分析了这些研究成果,包括:以HaLoop为代表的迭代计算框架、以Twitter为代表的实时计算框架、以ApacheHama为代表的图计算框架以及以ApacheYARN为代表的框架管理平台.这些专用系统在大数据领域发挥着越来越重要的作用.MapReduce[1]是Google公司于2004年提出的能并发处理海量数据的并行编程模型,其特点是简单易学、适用广泛,能够
2、降低并行编程难度,让程序员从繁杂的并行编程工作中解脱出来,轻松地编写简单、高效的并行程序.针对上述问题,MapReduce并行编程模型的最大优势在于能够屏蔽底层实现细节,有效降低并行编程难度,提高编程效率.其主要贡献在于:使用廉价的商用机器组成集群,费用较低,同时又能具有较高的性能;松耦合和无共享结构使之具有良好的可扩展性;用户可根据需要自定义Map、Reduce和Partition等函数;提供了一个运行时支持库,它支持任务的自动并行执行.提供的接口便于用户高效地进行任务调度、负载均衡、容错和一致性管理等;MapReduce适用范围广泛,不仅
3、适用于搜索领域,也适用于满足MapReduce要求的其它领域计算任务2MapReduce总体研究状况最近几年,在处理TB和PB级数据方面,MapReduce已经成为使用最为广泛的并行编程模型之一.国内外MapReduce相关的研究成果主要有以下几方面:(1)在编程模型改进方面:MapReduce存在诸多不足.目前,典型研究成果有Barrier-lessMapReduce[6]、MapReduceMerge[7]、Oivos[8]、Kahnprocessnetworks[9]等.但这些模型均仅针对MapReduce某方面的不足,研究片面,并且都没有
4、得到广泛应用,部分模型也不成熟(2)在模型针对不同平台的实现方面:典型研究成果包括:Hadoop[10]、Phoenix[11,12]、Mars13]、CellMapRe-duce[14]、Misco[15]和Ussop[16]部分平台(例如:GPUs和Cell/B.E.)由于底层硬件比较复杂,造成编程难度较大,增加了用户编程的负担.(3)在运行时支持库(包括:任务调度、负载均衡和容错)方面:常用的任务调度策略是任务窃取,但该策略有时会加大通信开销.典型的研究成果包括:延迟调度策略[17]、LATE调度策略[18]和基于性能驱动的任务调度策略[19]
5、等.在容错方面的典型研究成果是reduce对象[20].目前,运行时支持库中针对一致性管理和资源分配等方面的研究相对较少.(4)在性能分析与优化方面:目前,文献[21]主要研究在全虚拟环境下MapReduce性能分析,文献[22]则提出了名为MRBench的性能分析评价指标.性能优化典型成果包括:几何规划[23]、动态优先级管理[24]和硬件加速器[25]等.着眼于性能,结合运行时支持库,将是MapReduce研究的热点之一.(5)在安全性和节能方面:安全性方面典型研究成果是SecureMR模型[26].文献[27]和文献[28]则在节能方面做了相应的
6、研究.目前国内外在安全性和节能方面的研究成果相对较少,但是这方面研究的重要性已经得到了越来越多的重视.如果一个模型没有很高的安全性,同时也没有很好地考虑功耗问题,那对其大范围推广将产生致命的影响.(6)在实际应用方面:MapReduce应用范围广泛,Google等诸多公司都在使用MapReduce来加速或者简化各自公司的业务[29].MapReduce还广泛应用于云计算[30]和图像处理[31]等领域.随着科技的进步,MapRe-duce将会得到越来越广泛的应用.国内学者MapReduce相关研究成果主要集中在实际应用方面.例如,把MapReduce应
7、用于模式发现[32]和数据挖掘[33]等领域.部分研究成果涉及模型针对不同平台的实现、任务调度、容错和性能评估优化.例如,文献[34]提出了名为FPMR的基于FPGA平台的精彩文档实用标准文案MapRe-duce实现,文献[35]提出了基于已知数据分布的任务调度策略,文献[36]提出了名为SAMR的异构环境下自适应任务调度策略,文献[37]提出了基于目录的双阶段错误恢复机制,文献[38]提出了名为TheHiBenchBench-markSuite的性能评估指标,文献[39]提出利用分布式的研究起步稍晚,绝大部分研究集中在应用方面.对MapReduce关
8、键技术也进行了研究.但是相对于国外,国内在这些方面的研究成果较少.3MapReduce模型及