资源描述:
《超算系统现状》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
西北农林科技大学超算系统现状和调度系统使用讲解李恒锐13519122505hrli@jhinno.com北京景行锐创软件有限公司2017年6月
1共有节点:127其中管理节点:2编译节点:2(node119,node124)Smp大内存节点:2(node110,node111:56核,2T内存)256G内存节点:8(node124~node131)128G内存节点:44(node50~node119)64G内存节点:71(node1~node49,node86~node120)GPU计算节点:1(node109:K80GPU卡*1)超算系统现状©十月22北京景行锐创软件有限公司版权所有
2在超算运行环境中,队列与计算资源是对应关系在当前的超算环境中,部分节点作为特点课题的包机使用,除此以外,开放的常用公共队列与公共资源主要有:Normal:nodegroup(node86~node105,node46~node49)(特点:内存64G内的作业)Short:nodegroup(node86~node105,node46~node49)(特点:快速调度,执行时间限制在15分钟)Commonpara:nodegroup(node86~node105,node46~node49)(特点:加载IntelMPI环境,可以在命令中处理mpi并行逻辑)Matlab:nodegroup(node86~node105,node46~node49)(特点:matlab2014算例)Adina:nodegroup(node86~node105,node46~node49)(特点:adina91算例)Nodequeue:nodegroup(node86~node105,node46~node49)(特点:目前等同于normal)常用队列与节点关系(一)©十月22北京景行锐创软件有限公司版权所有
3small:small(node106)(特点:执行时间限制在2个小时)smpqueue:smpgroup(node110,node111)(特点:超过256G的大内存作业)denovo:denovo(node120)(特点:denovo作业)gpuqueue:gpugroup(node109)(特点:gpu应用作业)paraqueue:nodegroup(node86~node105,node46~node49)(特点:使用mpirun进行并行计算)blastx:nodegroup(node86~node105,node46~node49)(特点:运行blast2.3.0作业)Gaussian:nodegroup(node86~node105,node46~node49)(特点:运行gaussian09作业)mem128queue:mem128group(node125~node131)(特点:内存在128G内的作业)常用队列与节点关系(二)©十月22北京景行锐创软件有限公司版权所有
4jqueues:查看所有队列列表;QUEUE_NAMEPRIOSTATUSMAXJL/UJL/PJL/HNJOBSPENDRUNSUSPnormal40Open:Active----942920commonpara40Open:Active----0000matlab40Open:Active----0000adina40Open:Active----0000nodequeue40Open:Active----16201620……jqueues–l队列名:查看具体某个队列的配置信息jqueues-lparaqueueQUEUE:paraqueue--Nodescriptionprovided.……USERS:allusersHOSTS:nodegroup+7PRE_EXEC:/stor9000/apps/jhinno/unischeduler/pre_exec/pre_exec.shJOB_STARTER:/stor9000/apps/jhinno/unischeduler/jobstarter/paraqueue_starterjhosts机器(机器组名):查看队列相关的机器组的情况jhostsnodegroupHOST_NAMESTATUSJL/UMAXNJOBSRUNSSUSPUSUSPRSVnode100closed-242424000node101closed-242424000……队列与资源常用命令©十月22北京景行锐创软件有限公司版权所有
5编译与提交节点:node119,node124编译环境:Node119:编译环境高于计算节点,用于高版本要求,编译完成后不能直接运行与计算节点gcc4.8.5Glibc:2.17Intel编译器:2016(/stor9000/intel/compilers_and_libraries_2016.2.181/)Node124:编译环境等同于计算节点,编译完成后可直接在计算节点运行gcc4.4.7Glibc:2.12Intel编译器:2016(/stor9000/intel/compilers_and_libraries_2016.2.181/)编译与提交节点©十月22北京景行锐创软件有限公司版权所有
6调度的原理:在共享的资源集群中,通过一定的规则为用户分配相应的资源。作业提交与调度©十月22北京景行锐创软件有限公司版权所有
7调度系统环境变量包含调度系统命令执行所需要的环境信息,在使用时要预先加载,加载方式为:./stor9000/apps/jhinno/unischeduler/conf/profile.jhscheduler或source/stor9000/apps/jhinno/unischeduler/conf/profile.jhscheduler建议:写到个人家目录下的.bashrc文件中,自动加载exportMPICH_PATH=/stor9000/intel/impi/5.1.3.181exportINC_MPI=$MPICH_PATH/include64exportLIB_MPI=$MPICH_PATH/lib64exportCC=mpiiccexportF90=mpiifortexportFC=ifortexportF77=mpiifortexportUSER_FC=mpiifortexportUSER_CC=mpiiccexportMPIF90=mpiifortsource/stor9000/intel/impi/5.1.3.181/bin64/mpivars.shsource/stor9000/intel/compilers_and_libraries/linux/bin/compilervars.shintel64调度系统环境变量加载©十月22北京景行锐创软件有限公司版权所有
8作业提交基本命令:jsub作业提交命令格式:jsub[-h][-V][-x][-H][-r][-N][-B][-I|-K|-Ip|-Is][-Llogin_shell][-ccpu_limit[/host_spec]][-Ffile_limit][-Wrun_limit[/host_spec]][-kchkpnt_dir[chkpnt_period][method=chkpnt_dir]][-Pproject_name][-qqueue_name...][-Rres_req][-m"host_name[+[pref_level]]|host_group[+[pref_level]]..."][-nmin_processors[,max_processors]][-Jjob_name][-bbegin_time][-tterm_time][-umail_user][-iin_file|-isin_file][-oout_file][-eerr_file][-Mmem_limit][-Ddata_limit][-Sstack_limit][[-f"lfileop[rfile]"]...][-wdepend_cond][-E"pre_exec_command[argument...]"][-Zs][-spjob_priority][command[argument...]][-aadditional_esub_information][-vmwin7|win2008|winxp][-cwdcurrent_working_directory][-gpgpu[gpures=]num]作业提交命令©十月22北京景行锐创软件有限公司版权所有
9jsub–Jjob_name–ncpu_number–qqueue_name–ooutput_file“作业执行命令、参数或脚本”注意:(1)作业提交所在的目录即为作业执行的目录,因此相对路径均需要以当前目录为基础;(2)如果提交格式为脚本,脚本中命令或执行文件要写为绝对路径。参数含义:-Jjob_name:指定作业名(可不设置)-ncpu_number:指定作业运行所需要的cpu资源数(不设置默认为1)-qqueue_name:指定作业提交的队列资源(不设置默认为normal队列)-ooutput_file:指定作业运行过程中输出信息保存的文件名,路径默认为作业提交路径(不设置则不输出过程信息)“作业执行的命令、参数或脚本”:既可以直接运行命令,也可以根据作业的需要编写包含复杂逻辑的脚本常用作业提交命令格式©十月22北京景行锐创软件有限公司版权所有
10jsub–n12–qparaqueue–ooutput.log“./Gelbvieh_Tibetan.80.5060000.sh”作业提交举例©十月22北京景行锐创软件有限公司版权所有
11PEND:作业等待PSUSP:作业被系统挂起USUSP:作业被用户或用户策略挂起RUN:作业运行中DONE:作业正常结束EXIT:作业非正常结束UNKWN:作业状态丢失常见作业状态说明©十月22北京景行锐创软件有限公司版权所有
12查询作业命令:jjobs查询作业运行详细信息:jjobs–l作业号jjobs-lxxxxxJob,JobName,User,Project,Status,Queue,Command<./Gelbvieh_Tibetan.80.5060000.sh>TueMay1609:17:32:Submittedfromhost,CWD<$HOME/cattle/introgression/Sstar/Gelbvieh_Tibetan/SimulationData/simple/with_bottleneck>,OutputFile,ErrorFile,2ProcessorsRequested,RequestedResources;…TueMay1609:17:32:Startedon2Hosts/Processors<2*node130>,ExecutionHome,ExecutionCWD;ThuJun811:58:53:Resourceusagecollected.TheCPUtimeusedis2206876seconds.MEM:1920Mbytes;SWAP:15047MbytesPGID:3269;PIDs:326933413344346034613462…作业信息查询©十月22北京景行锐创软件有限公司版权所有
13查询等待作业命令:jjobs–lp作业号jjobs-lpxxxxJob,User,Project,Status,Queue,Command<./work_00044.sh>ThuJun810:17:51:Submittedfromhost,CWD<$HOME/annotation/DV/gene_finding/Denovo/Augustus/DV.k79.scaf.sspace.final.scaffolds.fasta.masked.ag.sh.12163.qsub>,OutputFile;PENDINGREASONS:Jobslotlimitreached:node86,node87,node88,node89,node90,node91,node92,node93,node94,node95,node96,node97,node98,node99,node100,node101,node102,node103,node104,node105,node46,node47,node48,node49,node113,node114,node115,node116,node117,node118;SCHEDULINGPARAMETERS:r15sr1mr15mutpgiolsittmpswpmemloadSched-----------loadStop-----------cpuspeedloadSched-loadStop-作业等待原因查询©十月22北京景行锐创软件有限公司版权所有
14终止作业命令:jctrlkill作业号历史作业命令:jhist或jhist–l作业号PSUSP和USUSP状态作业恢复:jctrlresume作业号作业管理命令©十月22北京景行锐创软件有限公司版权所有
15查询全节点状态:jhosts查询存储空间状态:df–h需要mpi并行的作业,执行命令不要放到脚本中,如果命令格式和参数较复杂,用“”包裹命令提交如果提交的作业执行直接报错,首先检查命令是否具有可执行权限。可执行权限可以用命令:chmod755命令(或脚本)设置如果实时编译的程序需要在计算节点执行,请到node124上编译调度系统常用命令及常见问题解析©十月22北京景行锐创软件有限公司版权所有
16问题与解答©十月22北京景行锐创软件有限公司版权所有
17谢谢!