欢迎来到天天文库
浏览记录
ID:46070499
大小:63.00 KB
页数:3页
时间:2019-11-20
《云计算Hadoop平台调度策略研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、计算Hadoop平台调度策略研究摘要:木文重点介绍了Hadoop平台作业调度的三种方法和策略,并通过hadoop分吋计算支持仿真设计来表现Hadoop平台作业调度策略如何提高系统数据处理性能以及资源利用率。关键词:云计算Hadoop平台调度策略基于Hadoop的应用的云计算,已经开始在国内大举应用推广,尤其是在WEB领域。淘宝利用Hadoop系统存储并处理电子商务交易的相关数据。搜索巨头百度则使用Hadoop进行数据挖掘和H志分析Facebook借助机群运行Hadoop支持其机器学习和数据分析;Yahoo!则通过机群运行Hadoop支持其广
2、告系统和Web搜索的研究;而HADOOP平台作业调度对支撑这些乜大应用系统起着举足若轻的作用,针对不同的应用需求,通过选择不同的HADOOP作业调度算法实现系统的作业选择和作业方法,从而实现相应的系统应用。1、HADOOP平台的三种主要调度策略研究1」单队列调度策略采用FIFO算法,调度方法简单但资源利用率低。1.2多队列调度策略每个队列分配一定的系统容量,空闲资源可以被动态分配给负载重的队列,支持作业优先级:资源回收请求队列优先;最多自由空间队列优先。作业可按提交时间、优先级排队;作业调度可检查用户配额和内存。多队列调度通过动态调整资源分
3、配,支持多作业并行执行,可充分提高资源利用率和作业执行效率。多队列作业调度策略也存在缺点,队列设置和队列选择无法自动进行,用户需耍了解大量系统信息。1.3平衡调度策略基于份额调度算法FairScheduler的平衡调度策略,以改善小作业的响应吋间,确保生产性作业的服务水平为FI标。其调度策略在于将作业分组,形成作业池,然后给每个作业池分配最小共享资源,将多余的资源平均分配给每个作业。优先调度资源小于最小共享资源的作业和选择分配资源与所需资源差距最大的作业。平衡调度支持作业分类调度,使不同类型的作业获得不同的资源分配,提高服务质量。可以动态调
4、整并行作业数量,从而充分利用资源。平衡调度策略不考虑节点的实际负载状态,虽然平衡调度作业,但实际上却导致了节点负载不均衡。2、HADOOP平台作业调度策略计算机仿真说明2」hadoop分时计算支持仿真设计问题背景:分布式计算平台接入的分析任务涉及的数据量非常庞大,数据分析需求又往往需要一天或一月完整数据,这就导致分布式计算平台接入的任务都集屮在晩上凌晨开始执行(因为这个时间段,数据刚刚准备好),直接的影响就是平台的支撑能力,因为白天大部分机器空闲,晚上又忙的要死。解决方案:将用户口天上传的数据分时段进行map计算,中间结果存储HDFS,到晚
5、上的吋候只需要进行reduce汇总操作。具体思路:%1业务用户口行进行分时计算,中间结果进行保留,最终reduce操作(需要业务进行优化,增加了平台使用门槛)%1平台优化,用户仅仅只需要完成原來的mapreudce程序(用户需要完成的工作和不分段计算完全一样,用户满意度高)平台优化的实现思路:优化后的问题:通用reduce程序将按part-00000-01H,part-00000-02H......part-00001-01H,part-00001-02H,^按照partion组织文件名安排数据。通用的map程序虽然只需要从part-000
6、00-01H,part-00000-02H等文件中读出key,value;但是其产生的中间结果,还是很大的IO瓶颈,这样的优化效杲仅仅减少了分散在每小时的map任务的数据处理逻辑代码。通用reduce程序将按part-00000-01H,part-00000-02H……part-00001-01H,part-00001-02H,等按照partion组织文件名安排数据;也就是说part-00000为前缀的数据文件木身就是需要安排在一台机器进行reduce操作的。我们只需耍从同一个前缀的多个文件屮依次读岀相同key的数据,整合在一起直接调用用户
7、reduce方法。直接省去了从map结果到reduce归并中间庞大的网络数据传输环节,可以大大提高数据处理性能以及资源利用率。参考文献:[1]肖静娴戴亚文•基于FPGA的异步FIFO缓存设计,《电子测量技术》2009年11期.[2]杨立宏.基于Flash的红外相机数据高速存储,长春理工大学:测试计量技术及仪器[学位论文],2009.[3]赵瑛•视觉假体中神经刺激器的处理与控制电路的研究,上海交通大学:生物医学工程[学位论文],2007・
此文档下载收益归作者所有