狼厂mpi平台使用指南

狼厂mpi平台使用指南

ID:19834739

大小:31.93 KB

页数:7页

时间:2018-10-06

狼厂mpi平台使用指南_第1页
狼厂mpi平台使用指南_第2页
狼厂mpi平台使用指南_第3页
狼厂mpi平台使用指南_第4页
狼厂mpi平台使用指南_第5页
资源描述:

《狼厂mpi平台使用指南》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、狼厂MPI平台使用指南项目负责人朱冠胤作者何锐邦项目成员朱冠胤刘伟何锐邦版本v1.0文档提交日期2010-06-081.百度MPI平台作业运行过程简介21.1.前提约定21.2.作业运行过程22.作业提交指南23.平台规范34.示例脚本44.1.自动提交作业脚本44.2.作业脚本55.qsub_f命令参数说明56.FAQ71.百度MPI平台作业运行过程简介1.1.前提约定Ø作业可执行文件:MPI程序本身及运行时所需文件打成tar.gz包,并放在HDFS上。Ø作业输出:MPI程序的输出放在单独的目录,运行完毕后,平台

2、自动将此输出目录推送到HDFS上。1.2.作业运行过程1)作业脚本通过qsub_f命令提交到MPI平台2)MPI平台将包含该作业可执行程序和相关文件的tar.gz包从HDFS上下载到分配到的各个计算节点上。3)平台将此tar.gz包自动解压到指定目录。4)在其中一台计算节点(不固定)上执行作业脚本。此节点相当于本次作业的主节点。5)当作业脚本中运行mpirun命令时,会在分配到的所有计算节点上运行mpirun中指定的程序。6)作业执行完毕后,平台将指定的输出目录完整推送至HDFS上。7)作业结束。2.作业提交指南向

3、MPI平台提交作业,需要执行以下步骤:1)建议与MPI平台客户端机器建立信任关系,以便实现自动化提交作业。2)将作业脚本scp到MPI平台客户端机器的work帐户下。3)使用ssh命令登录到MPI平台客户端机器,通过qsub_f命令提交该刚才scp的作业脚本。示例:ssh-oStrictHostKeyChecking=no-oConnectTimeout=10work@jx-mpi-a000.jx"qsub_f–NHelloWorld-lnodes=5,walltime=3600-d/home/work/test-

4、vHADOOP_FS=hdfs://bb-app-master1.bb01.baidu.com:54310,HADOOP_USER=test,HADOOP_PASSWD=guessit,HDFS_TAR_GZ_PATH=/app/ecom/data.tar.gz,LOCAL_OUTPUT_PATH=/home/work/test/output,HDFS_OUTPUT_PATH=/app/ecom/output,ARG1=arg1,ARG2=arg2/home/work/test/job.sh"0

5、1)必须使用qsub_f的-N参数指定作业名,如前面示例所示。2)必须使用qsub_f-lwalltime=<秒>来指定作业最长执行时间,防止出现作业hang住的情况3)必须使用qsub_f的-v参数定义以下变量,如前面所示:HADOOP_FS:作业要连接的HDFS的地址HADOOP_USER:作业访问hadoop时的使用的用户名HADOOP_PASSWD:作业访问hadoop时使用的用户名的密码HDFS_TAR_GZ_PATH:作业可执行程序和相关文件的tar.gz包在HDFS上的路径LOCAL_OUTPUT_P

6、ATH:MPI程序在计算节点本地的输出数据目录HDFS_OUTPUT_PATH:MPI程序本地输出数据要推送到的HDFS上的目录。4)必须使用qsub_f的-d参数指定当前工作目录,tar.gz包会解压到此目录下。5)由于通过qsub_f提交的作业脚本不能接收脚本参数,因此可以通过qsub_f的-v参数来传递作业脚本所需的参数,如示例中的ARG1、ARG2参数。以-v形式定义的参数会成为作业脚本的环境变量。6)使用qsub_f的-l参数的nodes选项指定计算节点的数量,如示例所示。7)qsub_f的其他参数说明请

7、见第5章:qsub_f命令参数说明。8)必须在作业脚本的最前面(所有涉及到脚本所依赖文件的命令之前,如source),调用MPI平台的默认的预处理程序:job_setup9)必须在作业脚本的最后面(所有处理结束后),调用MPI平台的默认的后处理程序:job_cleanup10)作业脚本调用mpirun命令时,不需要使用-hostfile或-machinefile指定节点列表。mpirun会从平台自动获取节点列表。11)在同一个作业脚本中多次调用mpirun,获得的节点列表是相同的。但不同的作业之间,获得的节点列表不

8、一定相同,因为某个节点可能会被其他作业占用。12)作业在每个节点中的输出会被推送到前面HDFS_OUTPUT_PATH变量所指定的HDFS路径上,每个节点的输出都放在单独的目录中,目录以rank-00000、rank-00001等的形式命名。1.平台规范ü将作业的可执行程序及运行时所需文件打成tar.gz包,放在HDFS上。ü将程序的输出放在单独的目录。ü使

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。