slurm.confファイルを下記の様に修正する
変更箇所:
1.ClusterName
2.ControlMachine 管理ノードのマシン名
3.SlurmUser 稼動ユーザ
4.StateSaveLocation 各種state情報の格納場所
5.SlurmdSpoolDir スプールディレクトリのありか
6.SlurmctldLogFile 管理ノード発のログファイル
7.SlurmdLogFile 計算ノード発のログファイル
8.NodeName 計算ノードの登録
9.PartitionName queue名とqueueに所属する計算ノード
10.MailProg メール送信プログラム
| [root@slurm ~]# cat /etc/slurm/slurm.conf
ClusterName=cluster
SlurmctldHost=slurm
AuthType=auth/munge
MpiDefault=none
GresTypes=gpu
ProctrackType=proctrack/cgroup
ReturnToService=1
SlurmctldPidFile=/var/run/slurm/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurm/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurm/d
SlurmUser=slurm
SlurmdUser=root
StateSaveLocation=/var/spool/slurm/ctld
SwitchType=switch/none
TaskPlugin=task/cgroup
SrunPortRange=60001-63000
# TIMERS
InactiveLimit=0
KillWait=30
MinJobAge=300
SlurmctldTimeout=120
SlurmdTimeout=300
Waittime=0
# SCHEDULING
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
# JOB PRIORITY
# LOGGING AND ACCOUNTING
AccountingStorageType=accounting_storage/none
#AccountingStorageTRES=gres/gpu
AccountingStoreFlags=YES
JobCompType=jobcomp/none
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/cgroup
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurmd.log
# COMPUTE NODES
NodeName=n1 CPUs=1 Boards=1 SocketsPerBoard=1 CoresPerSocket=1 ThreadsPerCore=1 RealMemory=16001 Gres=gpu:1
NodeName=n2 CPUs=2 Boards=1 SocketsPerBoard=1 CoresPerSocket=2 ThreadsPerCore=1 RealMemory=15732 Gres=gpu:1
NodeName=n3 CPUs=4 Boards=1 SocketsPerBoard=1 CoresPerSocket=4 ThreadsPerCore=1 RealMemory=16000
NodeName=s CPUs=8 Boards=1 SocketsPerBoard=1 CoresPerSocket=4 ThreadsPerCore=2 RealMemory=31712 Gres=gpu:2
PartitionName=workq Nodes=ALL Default=YES MaxTime=INFINITE State=UP
SlurmctldParameters=enable_configless
[root@slurm ~]#
|
「ReturnToService」の値. DOWNとされた計算ノードが立ち上がった際の取り扱い.
値「0」は計算ノードが立ち上がってslurmdで通信出来ても手動で操作で「idle」に変更する必要がある.
値「1」はメモリ不足とか予期しない再起動でDONWとされたならDOWNのまま. それ以外で復帰後slurm.confに記載されたノード構成なら使えるようになる
値「2」はslurm.confに記載されたノード構成なら利用可能になります. でも何かが起こったよ.