清华大学生物高性能计算平台用户使用手册-清华大学生物计算平台介绍内容摘要:

ode01:12 node02:12 2) 运行 mpi mpiexec –machinefile hosts –n 24 ./progmpi n:启动进程数 常见问题: 1) warning: feupdateenv is not implemented and will always fail 解决: mpicc o cpi limf 2) orted: error while loading shared libraries: 解决:各类库冲突 ,或者没有查找到。 检查 intel 编译器及 openmpi 环境变量是否设置正确。 在 LD_LIBRARY_PATH 中添加 export /opt/intel/lib/intel64 其他注意事项: a) 测试节点 node01~node10 上用户目录被直接 mount 到系统存储中上,因此用户在 清华大学生物高性能计算平台 用户使用手册 12 目录下做任何文件操作, login0 node01~node10 及其他计算节点都会有相应的改变。 b) 程序运行以后想杀掉程序,直接按 ctrl+c,就可以杀掉一个 mpirun 启动的所有进程。 c) 平台推荐用户使用 intel、及基于 Intel 编译器的 mpi 并行编程环境。 用户如果需要其他环境配置,可直接和管理员联系,管理员将根据需求安装 gcc、 pgi 编译器及基于相关编译器的 mpi 编程环境。 d) node01~node10 为测试节点,仅供用户编译调试程序,为了所有用户使用方便, 请大家不要长时间运行作业。 管理员一旦发现,有权立即终止程序。 e) 每个用户的自家目录都限制了磁盘限额 , 请不要上传和计算 无关文件,并及时做好数据备份和清理工作。 f) 系统 /tmp 目录为内存虚拟目录,大小只为 100M。 如果程序需要有临时文件写入,可将临时文件目录指定为: /scratch。 g) 用户在编写程序的时候,应尽力减少文件的产生。 在内存足够的情况下,尽量把中间结果存在内存中,从而减少由于磁盘 IO 访问所带来的计算瓶颈。 清华大学生物高性能计算平台 用户使用手册 13 第 5 章 lsf 使用说明 本集群使用 lsf 作业管理系统进行作业的管理与分配。 用户只需用 lsf 提交命令( bsub)将作业提交到集群,系统就会按照管理员制定的作业分配策略自动进行调度,决定何时以及在哪些计算结点运行程序。 作业管理系统不仅方便用户使用,更提高了整个系统使用效率。 Lsf 的 web 界面登陆地址为: 队列设定 目前系统 80nodes A 中建立了 8 个队列 ,可使用 bqueues 命令查看: QUEUE_NAME PRIO STATUS MAX JL/U JL/P JL/H NJOBS PEND RUN SUSP normal 30 Open:Active 0 0 0 0 GPU 30 Open:Active 1 0 1 0 BNODE 30 Open:Active 30 0 30 0 GIANT 30 Open:Active 800 0 800 0 HUGE 30 Open:Active 40 20 20 0 MID 30 Open:Active 17 7 10 0 SMALL 30 Open:Active 0 0 0 0 TINY 30 Open:Active 53 3 50 0 TEST 30 Open:Active 19 14 5 0 low10 30 Open:Active 480 320 160 0 TOTAL 30 Open:Active 0 0 0 0 提交作业 (bsub) bsub 命令基本用法 1. 提交作业 :bsub mand $ bsub sleep 60 清华大学生物高性能计算平台 用户使用手册 14 Job 55163 is submitted to default queue HUGE. 向 LSF 提交作业,获得唯一 ID55163,作业提交成功。 2. 向某个队列提交作业: bsub –q。 $ bsub q TOTAL sleep 60 Job 55164 is submitted to queue TOTAL. 3. 用 制定标准输出和 error 文件位置 $ bsub o output.%J e errors.%J lsl Job 55165 is submitted to queue TOTAL. %J 代表作业 ID 注意:用户的可执行程序必须写在 o –e 选项后面 4. 用 i 指定输入文件 有些可执行程序运行时采用 方式来输入可执行文件 lsf 可使用 i 指定输入文件 5. 用 m 指定运行机器 $ bsub –m “hosta hostb” hostname bsub 详细用法可以使用 man bsub,参考说明 OpenMP 并行作业提交 使用 openmp 关键字 例 1: 提交作业 12 核 openmp,并保证作业独占该计算节点。 bsub a openmp n 12 R span[hosts=1] myOpenMPJob MPI 并行作业提交 用 关键字提交作业,并使用 a 选项指定所选用的 mpi。 不同 mpi 要使用不同的关键字。 例 1: 提交 intelmpi 并行作业 bsub a intelmpi –o output.%J –e error.%J n 12 /cpi 例 2: 提交 mvapich 并行作业 bsub a mvapich –o output.%J –e error.%J n 12 /examples/cpi 例 3: 提交 openmpi 并行作业 bsub –a openmpi –o output.%J –e error.%J n 12 /examples/cpi 清华大学生物高性能计算平台 用户使用手册 15 大内存并行作业提交 系统计算节点内存有两种配置, 48G 和 32G。 需要大内存的用户在提交作业时必须使用R 选项把作业提交到大内存节点 (内存 48G)上,使用方法如下: 例 1:将作业提交到内存剩余总量超过 42G 的计算计算节点上 bsub a intelmpi –R select [mem42020] n 12 /examples/large_mem 其中,单位为 MB 用户可以根据自身需求设定剩余总量的限制。 此外,为防止内存不足造成的计算缓慢或系统死机等问题。 系统设置计算节点剩余内存不足 500M 时,节点上相关作业将会被挂起,作业状态为 SSUSP。 用户如果发现作业为 SSUSP,请及时和管理员联系,确认挂起原因。 使用脚本提交作业 为使用方便,用户可以自行撰写脚本提交作业,每次直接运行脚本即可。 撰写脚本有两种方式: 方法 1: 建立包含 bsub 的脚本 创建文件(如 job),在 job 中写入 bsub 提交命令,如: bsub a intelmpi –o output.%J –e error.%J n 12 /examples/cpi 然后 chmod +x job 直接运行 ./job,就可以提交作业。 方法 2: 使用 bsub 脚本多次提交具有相同参数的作业,其格式如下: 用户根据实际需求可以添加其他选项。 提交脚本 ,运行命令 bsub 脚本名,即可提交作业。 该脚本等同于命令: bsub q QUEUENAME –a MPITYPE n Z o OUTPUTFILE e ERRFILE program 推荐用户使用方法 2“ bsub 脚本模式”提交作业。 !/bin/sh BSUB q QUEUENAME BSUB –a MPITYPE BSUB n Z BSUB o OUTPUTFILE BSUB e ERRFILE program 清华大学生物高性能计算平台 用户使用手册 16 提交作业如果需要其他选项,如 J、 R、 M、 W、等请按照以上格式自己添加。 例如:提交 intelmpi 作业 1. 创建文件 job,内容如下: BSUB q normal BSUB a intelmpi BSUB –n 24 BSUB –o output.%J BSUB –e error.%J ./mpi_openmp_hello 2. 用 bsub 提交作业: bsub job 状态查看 查看作业状态 (bjobs) 作业提交后,用户使用 bjob 命令查看作业 ID 和状态 $ bjobs JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME 55167 gyfeng RUN HUGE login01 node27 sleep 60 Nov 18 15:45 一个作业提交后,将可能为以下几种状态之一: STAT 状态 PEND 任务在队列中排队等待 RUN 任务正在执行 PSUSP 任务在队列中排队等待时被用户挂起 SSUSP 任务被系统挂起 DONE 作业正常结束, exit 代码为 0。
阅读剩余 0%
本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。