slurmをjob queuing systemに使った場合

  • 厳しくリソース管理が行われるので16coreマシンに 5mpi/4threads/4GPU は走らない
  • なので割り当てられたリソースを無視する「--oversubscribe」を埋め込む. 利用は計画的に
  • hostfileは提供してくれないから、必要だったら作る必要がある
  • job発行時に$TMPDIRの提供がない. Prolog/Epilog機構を駆使する必要がある

これらに留意する必要があるっぽい

slurmでrelionを使うときの「qsub.sh」を作ってみている. 「sbatch.sh」とかの名称がいいのかも

#!/bin/bash
#SBATCH --partition=XXXqueueXXX
#SBATCH --ntasks=XXXmpinodesXXX
#SBATCH --cpus-per-task=XXXthreadsXXX
#SBATCH --error=XXXerrfileXXX
#SBATCH --output=XXXoutfileXXX
#SBATCH --job-name=XXXnameXXX
#SBATCH --gres=gpu:4
#################################
 
cd $SLURM_SUBMIT_DIR
 
### Environment Modules
. /etc/profile.d/modules.sh
module load mpi/openmpi-x86_64
module load relion
 
### requested resources
cat <<_EOF_>XXXoutfileXXX
----------------------------------------------
start  `date`
----------------------------------------------
Queue name                         XXXqueueXXX
used nodes                         ${SLURM_STEP_NODELIST}
  +--NumberOfProcess[MPI procs]    XXXmpinodesXXX
     +-- NumberOfThreads[threads]  XXXthreadsXXX
_EOF_
 
### check command
cmd_=$(/bin/cat <<_EOF_
XXXcommandXXX
_EOF_
)
cmd=$(echo "$cmd_" | sed -z 's/\n/\&\&/g')
run=$(echo $cmd|awk '{print $1}')
 
### mpirun option
opt=" --display-map --bind-to none --mca plm_rsh_agent rsh --map-by node --oversubscribe "
 
### check GPU
np=XXXmpinodesXXX
localnodefile=1
if [ ${run##*/} =  "relion_refine_mpi" ]; then
   if [[ $cmd = *--gpu* ]]; then
      np=$(expr $np + 1)
   fi
fi
 
### Run
SECONDS=0
command="{ { mpirun $opt --host SLURMD_NODENAME -np $np ${cmd:0:-2} | tee -a XXXoutfileXXX ; } 3>&2 2>&1 1>&3 | tee -a XXXerrfileXXX ; } 3>&2 2>&1 1>&3"
 
eval $command
 
cat <<_EOF_>>XXXoutfileXXX
----------------------------------------------
use relion: `readlink -f $run`
end time: `date '+%y%m%d %H:%M:%S'`  (spend  `printf "%02d:%02d:%02d\n" $(($SECONDS/3600)) $((($SECONDS%3600)/60)) $(($SECONDS%60))`)
----------------------------------------------
done
_EOF_

メモ

relion側でGPU何枚使うとかはそのままでは無理っぽい. 現状はGPU利用可能枚数を定義したqueueを作るか、4枚用 qsub.sh、2枚用 qsub.sh を別途用意するとかになる.
relionのソースを修正して、枚数指定の入力欄を拵えれば1枚のqsub.shで対応可能かなと思えます.
画面はこんな感じになるのかも.
https://hpc.nih.gov/apps/relion/index.html

ただ、こうゆう修正を行うとupdateの時が面倒かなぁ. まぁ「pipeline_jobs.cpp」の修正のみで用意できますけど

「Compute」タグの「Which GPUs to use:」欄から得られそうだが、


トップ   編集 添付 複製 名前変更     ヘルプ   最終更新のRSS
Last-modified: 2022-12-27 (火) 21:48:37 (85d)