欢迎来到天天文库
浏览记录
ID:31775555
大小:64.10 KB
页数:10页
时间:2019-01-18
《多云工作流优化传输费用数据布局策略》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、多云工作流优化传输费用数据布局策略摘要:科学工作流应用是一种复杂且数据密集型的应用,常应用于结构生物学、高能物理学和神经学等涉及分布式数据源的学科。数据分散存储在基于互联网的云计算平台上,致使科学工作流在执行时伴随着大量的数据传输。云计算是一种按使用量付费的模式,数据传输产生传输费用,尤其在多个工作流相互协同的情况下,将产生更高的传输成本。该文从全局的角度建立基于多工作流数据依赖图的传输成本模型,研究基于二进制粒子群算法(BPSO)的数据布局优化策略,从而减少对云计算传输资源的租赁费用。关键词:云计算;工作流系统;云工作流;数据布
2、局;二进制粒子群算法中图分类号:TP18文献标识码:A文章编号:1009-3044(2014)10-2418-03Abstract:Scientificworkflowisacomplexanddata—intensiveapplication.Itoftenusedindisciplinesrelatedtodistributeddatasources,suchasstructuralbiology,highenergyphysicsandneurology.DatadistributeinInternet-basedcloud
3、computingplatform,resultingintransferringmassofdatabyscientificworkflowrunning.Becausecloudcomputingisapay-per-usemodel,sodatatransfercostsincurred.Especiallyinthecaseofmultiplecooperativeworkflows,datatransmissionwillproducehighercosts・Firstly,thispaperbasedonmultipl
4、eworkflowdatadependencegraphestablishtransmissioncostmodel.Secondly,thispaperproposedanewparticleswarmoptimization-basedstrategyforcost-effectivedatalayoutinmultipiescientificcloudworkflows.TheexperimentalresuItsshowthatthestrategyismuchbetterthanitstraditionolcounter
5、parts.Keywords:cloudcomputing;workflowsystem;cloudworkflow;datalayout;binaryparticleswarmoptimizationalgorithm1概述科学工作流应用是一种复杂且数据密集型的应用,常应用于结构生物学、高能物理学和神经学等涉及分布式数据源的学科,这些学科通常都要处理海量的数据。因此,科学工作流的数据的表示和结构值得深入研究[1]。随着科学工作流的发展,越来越多的科学工作流研究者认识到在云环境中运行科学工作流比在其他分布式等环境中有更好的成本效益
6、[2~3]o云计算技术的出现提供了一种新的方式来部署科学工作流,云计算是分布式计算的新范式,以付费的方式向用户提供基础设施、平台和软件等服务[4-5]o当前已有一些部署在云计算环境上科学工作流项目,例如Nimbus[6]和Cumulus[7]项目。Deelman等人[8]提出云计算能为科学工作流提供一个十分经济的部署方案[9]。此外,云计算基于互联网Internet,因此全世界的科学家可以通过云计算在一起进行研究、分享数据。当科学工作流在执行任务时,需要将分布在互联网上不在本地的数据集传输到本地才能进行相应的计算,因云计算环境以付
7、费的方式提供存储、传输、计算等服务,所以云计算环境下的工作流在执行过程中因会产生大量的传输费用,如何减少传输费用则成为了一个在云计算环境下部署科学工作流的挑战。本文将提出一种基于二进制粒子群算法的多工作流数据布局策略,在全面考虑数据集大小,数据集之间的依赖关系,网络间的传输价格的基础,通过二进制粒子群算法对多工作流的数据布局进行优化,优化多工作流的传输成本。2相关工作科学工作流的数据集按照来源可分为输入数据集和生成数据集,输入数据集作为工作流任务的输入,生成数据集作为工作流任务的输出,然后该生成数据集又作为另一个工作流任务的输入,
8、所以工作流数据集之间存在着非常重要的依赖关系[10]o当前已有一些有关云计算环境下的数据布局研究,例如GoogleFileSystem[l1]和Hadoop[⑵,都对用户隐藏了存储数据的基础设施,数据在GoogleFileSystem或Hadoop
此文档下载收益归作者所有