云环境下科学工作流的两阶段数据放置与任务调度策略.ppt

ID：56459786

大小：580.50 KB

页数：20页

时间：2020-06-18

资源描述：

《云环境下科学工作流的两阶段数据放置与任务调度策略.ppt》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、云环境下优化科学工作流执行性能的两阶段数据放置与任务调度策略科学工作流建立阶段数据放置策略摘要主要内容一、引言二、相关工作三、科学工作流形式化描述和问题分析四、基于相关度的两阶段数据放置五、结论与展望引言引言在众多科学研究领域中，科学计算过程往往由成千上万个步骤构成，这往往需要对TB甚至PB量级的数据进行分析和处理。在过去，科学家通常使用简单的方法编排任务以及管理数据，但是这种方式不仅耗时而且容易出错。科学工作流系统开始受到关注并被用来进行自动化科学任务的编排、执行、监控以及追踪。随着问题求解规模的增大，当今大型科学

2、工作流通常需要在复杂的分布式计算机系统上执行。构造这样的系统往往需要付出异常昂贵的代价，申请访问这些系统也需要复杂耗时的过程。云计算技术提供共享基础架构的方法，通过这种方式，云计算中心可以提供高性能的计算资源和海量的存储资源，而且成本低廉，使用简单。引言科学工作流任务间存在较强的数据依赖关系，其执行往往需要频繁对跨数据中心的数据集进行传输和访问，不合理的数据放置和任务调度策略容易导致数据中心间数据传输量和访问量过大：增加用户使用云资源的费用，严重影响了科学工作流的执行效率。研究基于云环境的高效数据放置策略和任务调度策略

3、对减少跨数据中心数据传输量、提升科学工作流执行性能、减少用户费用等方面具有重要意义。引言本文通过分析科学工作流数据集之间的依赖关系、数据集和数据中心之间的相关度以及任务和数据中心之间的相关度，提出了一种云平台下基于相关度的两阶段高效数据放置策略。根据数据依赖关系图在工作流建立阶段将关系紧密的数据集放置到同一个数据中心，将关系松散的数据集放置在不同数据中心。任务调度策略在运行阶段将任务调度到数据依赖最大的数据中心执行，并将新产生数据集放置到相关度最高的数据中心。实验表明：本文提出的策略不但极大地减少了数据中心间的数据移动

4、量，提高了工作流任务的并行执行效率，同时也节省了用户的云资源使用费用。引言本文的贡献主要表现在以下几个方面：在科学工作流建立阶段，提出了基于数据依赖的初始化数据布局方法，充分挖掘数据相关性，使得数据布局尽可能的符合使用规则，同一个任务所需数据集最大规模地聚集在一个数据中心。在科学工作流运行阶段，提出一种相应的任务调度策略，将任务调度到所需数据集规模最大的数据中心上，减少数据中心之间的数据传输量，加快科学工作流执行速度。针对任务执行过程中产生的中间数据集，本文利用数据集之间的关系，通过量化计算将它们放置到合适的数据中心，

5、使得后续的任务调度与执行能够快速展开。二、相关工作Pegasus工作流Pegasus是由美国南加州大学网格技术中心开发出的一个开源的工作流映射引擎，它的主要功能是将复杂抽象的科学工作流映射到分布式资源上，它使用户从实际的运行环境中解放出来，而只需要考虑抽象层面上的工作流表示问题。数据放置策略：它首先预先分配数据到执行任务的计算单元，这样可以加快任务的执行速度，降低任务等待时间；然后动态地删除那些不会被后续任务使用的数据，以减少存储开销。这种策略只是保证了数据传输的可靠性和有效性，并没有考虑到云计算环境下因为数据交互引起

6、的跨数据中心之间的传输开销。二、相关工作聚类矩阵的数据放置策略：由澳大利亚杨耘等人提出，用于多数据中心之间数据集的放置。该方法的数据放置策略分为两步，在科学工作流建立阶段:构建一个相关度矩阵。通过BEA算法得到聚类矩阵。通过该矩阵将所有数据集划分为K个集合。（每一个集合内部的数据集都是高内聚的，集合之间的数据集则是低耦合）科学工作流执行阶段，在考虑存储条件满足的情况下，新产生的数据集被放置在与它相关度最大的数据中心上。实验表明，该方法可以有效减少跨据中心之间的数据移动次数。但这种方法并未考虑移动的数据大小，如果移动次数

7、较少，但所移动的数据太大，传输开销不一定降低，导致科学工作流的执行效率反而下降。三、科学工作流形式化描述和问题分析3.1相关模型和符号定义定义1数据中心设为表示编号为i数据中心,capi表示数据中心的计算能力，并用执行同一任务所需的时间的倒数来量化表示，并假设该值保持不变；csi表示dci的存储空间大小；λini表示在科学工作流建立阶段，数据中心可以使用的存储空间的比例。因为科学工作流执行过程中产生的中间数据有可能规模庞大，因此在原始数据分配阶段要留有一定的空间来存储中间数据，所以0＜λini＜1。λini是一个经验值

8、，它的大小取决于科学工作流的性质。定义2原始数据集设为DSini＝｛d1，d2，d3…｝DSini表示在科学工作流建立时所存在的数据集，即所有原始输入。中间数据集设为DSgen＝｛d1，d2，d3…｝DSgen表示在科学工作流执行过程中所产生的数据集。固定数据集和非固定数据集分别设为FD和NFD．FD表示必须放置在固定数据中心的数

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 20



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

云环境下科学工作流的两阶段数据放置与任务调度策略.ppt

云环境下科学工作流的两阶段数据放置与任务调度策略.ppt

相关文章

相关标签