是一个并行作业调度系统

是一个并行作业调度系统

ID:37220890

大小:71.00 KB

页数:5页

时间:2019-05-19

是一个并行作业调度系统_第1页
是一个并行作业调度系统_第2页
是一个并行作业调度系统_第3页
是一个并行作业调度系统_第4页
是一个并行作业调度系统_第5页
资源描述:

《是一个并行作业调度系统》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、LoadLeveler®是一个并行作业调度系统,它支持用户使每个作业的处理需要及优先级与可用资源相匹配,以便在更短时间内运行更多作业,从而最大化资源利用率。LoadLeveler跟踪每个串行或并行作业所占用的总资源,并提供几个报告选项,用于按照用户、组、帐户或类型来跟踪指定时间周期内的作业和利用率。为了支持资源使用的收费,LoadLeveler可以结合机器速度来调整收费率,并且配置为每项作业均需要一个帐户。LoadLeveler如何工作LoadLeveler池是一组负责对资源进行协调从而可以提供高吞吐量计算环境的机器集。我们可以认为它就是一个分布式计算集群

2、,其中包括了调度器、中央管理器和多个计算节点。当用户提交作业时,作业就被加入到作业队列中,而作业队列是由调度器进行管理的。调度器会为每个作业都分配一个惟一的标识符,并通知中央管理器现在有一个新的作业需要使用资源。中央管理器会负责寻找可以用来处理这个作业的可用资源。它会对作业需求和可用资源进行检查,看是否这些资源可以满足作业需求,从而为作业找到适当的资源。当中央管理器找到可以满足作业需求的资源时,它就通知调度器。调度器然后会联系所选择的资源,并请求它来运行这个作业。计算机资源是通过派生一个子进程来运行作业的,这个进程会在作业提交者的用户ID之下运行。当作业启

3、动时,计算资源会通知中央管理器这个作业正在运行。当作业完成时,LoadLeveler就会生成有关作业所消耗的资源的记帐信息。LoadLeveler的使用常用命令1.察看运行状态llstatus命令可以察看LoadLeveler集群的运行状态信息。运行如下命令:#llstatus可以得到类似的输出:Act—调度到该节点上的jobsteps数量Arch–硬件平台架构Idle–从上一次检测到键盘或鼠标活动到现在的时间,最大值为99999InQ–在该调度节点上队列中的jobsteps数量LdAvg–该节点的平均负载Name–节点的名称OpSys–节点操作系统Run

4、–该节点运行的jobstops数量Schedd–Schedd进程的状态Startd–startd进程的状态2、提交作业llsubmit命令提交作业。#llsubmitJobCommandFile该命令将得到类似的输出结果:llsubmit:Thejob“ivan2.nchc.org.tw.237”hasbeensubmitted这里包含作业在LoadLeveler中的唯一编号。3、查看作业可以使用llq命令查看作业队列。#llq该命令将得到类似的输出结果:Class–作业属于哪个作业类Id–作业的ID号Owner–提交该作业的用户PRI–jobstep的优

5、先级RunningOn–如果作业在运行,显示运行该作业的节点。如果作业没有运行,这列没有显示。对于并行作业,只显示第一个节点ST–作业状态Submitted–作业提交的时间4、查看作业类信息使用llclass查看作业类信息#llclass该命令将得到类似的输出结果:Description–显示该作业类的class_comment信息。FreeSlots–某个作业类可以运行的initiators数量。一个运行的串行jobsteps使用一个initiator。一个5个任务的并行作业jobsteps使用5个initiators。MaxJobCPU–某个作业类的最

6、大CPU时间MaxProcCPU–某个作业类的jobsteps的最大CPU时间MaxSlots–LoadLeveler集群中某个作业类的initiators的数量Name–作业类的名称5、取消作业使用llcancel命令取消一个或多个作业#llcanceljobname该命令得到类似的输出结果:llcancel:Cancelcommandhasbeensenttothecentralmanager.6、checkpoint一个运行的作业使用llckpt命令可以checkpoint一个正在运行的作业。Llckpt命令用于保存没有运行完的作业的状态。只有可以c

7、heckpoint的作业才能使用这个命令。你可以在作业提交脚本中增加“checkpoint=yes”或“checkpoint=interval”来指定一个jobstep可以checkpoint。一个任务作了checkpoint,可以稍后从checkpoint文件恢复该作业,不用从开始重新执行该任务。从checkpoint文件恢复一个作业时,需要在原来的作业提交脚本中增加一个关键字“restart_from_ckpt=yes”。Checkpoint文件的名字和路径用关键字ckpt_file和ckpt_dir指定。举例:a.#llckptiron.12这个命令

8、将checkpoint作业iron.12。成功执行完checkpo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。