spark数据处理平台中资源动态分配技术研究

spark数据处理平台中资源动态分配技术研究

ID:35034197

大小:2.84 MB

页数:83页

时间:2019-03-16

spark数据处理平台中资源动态分配技术研究_第1页
spark数据处理平台中资源动态分配技术研究_第2页
spark数据处理平台中资源动态分配技术研究_第3页
spark数据处理平台中资源动态分配技术研究_第4页
spark数据处理平台中资源动态分配技术研究_第5页
资源描述:

《spark数据处理平台中资源动态分配技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文图书分类号:TP391密级:公开UDC:004学校代码:10005工程硕士学位论文M.E.DISSERTATION论文题目:Spark数据处理平台中资源动态分配技术研究论文作者:杨忙忙领域:计算机技术指导教师:梁毅副教授论文提交日期:2016年6月UDC:004学校代码:10005中文图书分类号:TP391学号:S201307143密级:公开北京工业大学硕士专业学位论文(全日制)题目:Spark数据处理平台中资源动态分配技术研究英文题目:RESEARCHONRESOURCEDYNAMICALLOCATIONTEC

2、HNOLOGYONSPARKDATAPROCESSINGFRAMEWORK论文作者:杨忙忙领域:计算机技术研究方向:计算机网络技术申请学位:工程硕士专业学位指导教师:梁毅副教授所在单位:计算机学院答辩日期:2016年6月授予学位单位:北京工业大学独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任

3、何贡献均已在论文中作了明确的说明并表示了谢意。签名:杨忙忙日期:2016年6月12日关于论文使用授权的说明本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:杨忙忙日期:2016年6月12日导师签名:梁毅日期:2016年6月12日摘要摘要Spark海量数据处理平台是大数据处理领域的最新技术进展,该平台提出新的数据表达模型RDD,引入内存计算引擎与

4、数据复用技术,通过基于内存的RDD数据存储与处理,提升海量数据处理应用的执行效率。既有Spark平台采用粗粒度资源动态分配技术,仅针对CPU资源进行资源动态分配,且缺乏任务容器级的资源调整方法,无法在任务资源需求非对称性场景下进行精细化资源动态分配。针对上述问题,本文提出面向Spark平台的CPU与内存资源协同动态分配技术。该技术的核心思想是以任务执行器为粒度,根据任务执行器中任务的CPU及内存资源的使用特征,动态调整任务执行器的CPU和内存资源分配量,并通过多任务执行器间资源的组合优化调度,充分利用Spark平台的

5、CPU与内存资源,提升平台的应用吞吐率。本文的主要贡献包括:1)任务执行器资源使用均衡-饱和度定义。资源使用均衡-饱和度是对任务执行器资源使用效率的量化评价指标,是进行资源分配的基础依据。资源使用均衡-饱和度综合刻画了任务执行器的CPU和内存资源的利用率以及这两类资源利用率的差距。在Spark平台中,较高的资源使用均衡-饱和度表征任务执行器同时具有较好的CPU和内存资源利用效率。2)基于任务执行器资源使用均衡-饱和度评估的资源动态调整决策模型。根据资源使用均衡-饱和度定义了任务执行器资源动态调整触发条件。资源动态决策

6、模型针对具有资源动态调整需求的任务执行器,设计三级资源调整策略,分别通过改变任务并行度、改变任务CPU资源需求量、重分配任务执行器资源来实现资源的动态调整,减少资源碎片产生。3)基于蚁群算法的任务执行器资源动态分配方法。资源动态方法是对任务执行器资源需求与平台可用资源进行组合分配,以实现平台资源最大化利用。任务执行器资源动态分配中,存在任务执行器追加CPU资源需求、重启任务执行器和新增任务执行器三种资源需求。用任务执行器在节点上的资源收益定义蚁群算法中的路径,将资源组合分配问题映射成蚁群算法的收益函数。基于蚁群算法实

7、现的任务执行器资源动态分配方法,能够识别三种不同资源请求,并通过CPU与内存资源协同调度,实现资源最大化分配。4)综合本文的研究成果,基于Spark平台既有资源分配框架Mesos,实现了基于任务执行器资源使用均衡-饱和度评估的资源动态分配原型系统DRSpark。DRSpark整合了上述资源使用均衡-饱和度评估与资源动态分配的相关技术。5)对DRSpark进行了性能分析,性能分析结果表明,与Standalone模式、-I-北京工业大学工程硕士专业学位论文YARN模式以及Mesos模式相比,平台任务吞吐率最大提高了71.

8、14%,平均提升了32.48%;应用平均周转时间最大缩短了37.64%,平均缩短了23.71%。关键词:大数据;Spark;资源动态分配;蚁群算法;分布式内存计算-II-AbstractAbstractSpark,thelarge-scaledataanalyticframework,isacutting-edgeplatformforthem

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。