slurm.confファイルを下記の様に修正する
変更箇所:
1.ClusterName
2.ControlMachine 管理ノードのマシン名
3.SlurmUser 稼動ユーザ
4.StateSaveLocation 各種state情報の格納場所
5.SlurmdSpoolDir スプールディレクトリのありか
6.SlurmctldLogFile 管理ノード発のログファイル
7.SlurmdLogFile 計算ノード発のログファイル
8.NodeName 計算ノードの登録
9.PartitionName queue名とqueueに所属する計算ノード
10.MailProg メール送信プログラム

[root@slurm ~]# cat /etc/slurm/slurm.conf
ClusterName=cluster
SlurmctldHost=slurm
AuthType=auth/munge
 
MpiDefault=none
GresTypes=gpu
ProctrackType=proctrack/cgroup
 
ReturnToService=1
SlurmctldPidFile=/var/run/slurm/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurm/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurm/d
SlurmUser=slurm
SlurmdUser=root
 
StateSaveLocation=/var/spool/slurm/ctld
SwitchType=switch/none
TaskPlugin=task/cgroup
SrunPortRange=60001-63000
 
 
# TIMERS
InactiveLimit=0
KillWait=30
MinJobAge=300
SlurmctldTimeout=120
SlurmdTimeout=300
Waittime=0
 
# SCHEDULING
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
 
# JOB PRIORITY
 
# LOGGING AND ACCOUNTING
AccountingStorageType=accounting_storage/none
#AccountingStorageTRES=gres/gpu
AccountingStoreFlags=YES
JobCompType=jobcomp/none
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/cgroup
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurmd.log
 
# COMPUTE NODES
NodeName=n1 CPUs=1 Boards=1 SocketsPerBoard=1 CoresPerSocket=1 ThreadsPerCore=1 RealMemory=16001 Gres=gpu:1
NodeName=n2 CPUs=2 Boards=1 SocketsPerBoard=1 CoresPerSocket=2 ThreadsPerCore=1 RealMemory=15732 Gres=gpu:1
NodeName=n3 CPUs=4 Boards=1 SocketsPerBoard=1 CoresPerSocket=4 ThreadsPerCore=1 RealMemory=16000
NodeName=s  CPUs=8 Boards=1 SocketsPerBoard=1 CoresPerSocket=4 ThreadsPerCore=2 RealMemory=31712 Gres=gpu:2
 
PartitionName=workq Nodes=ALL Default=YES MaxTime=INFINITE State=UP
 
SlurmctldParameters=enable_configless
 
[root@slurm ~]#

めも

「ReturnToService」の値. DOWNとされた計算ノードが立ち上がった際の取り扱い.
値「0」は計算ノードが立ち上がってslurmdで通信出来ても手動で操作で「idle」に変更する必要がある.
値「1」はメモリ不足とか予期しない再起動でDONWとされたならDOWNのまま. それ以外で復帰後slurm.confに記載されたノード構成なら使えるようになる
値「2」はslurm.confに記載されたノード構成なら利用可能になります. でも何かが起こったよ.

最新の60件
2024-02-23 2024-02-22 2024-02-21 2024-02-20 2024-02-19 2024-02-18 2024-02-17 2024-02-16 2024-02-13 2024-02-12 2024-02-09 2024-02-04 2024-02-03 2024-01-31 2024-01-30 2024-01-29 2024-01-28 2024-01-22 2024-01-16 2024-01-15 2024-01-13 2024-01-12 2024-01-09 2024-01-08 2024-01-07 2024-01-03 2023-12-22 2023-12-17 2023-12-16 2023-12-11 2023-12-09 2023-12-06 2023-11-30 2023-11-27 2023-11-21 2023-11-19
  • slurm/slurm.conf
2023-11-18 2023-11-14 2023-11-10 2023-11-09 2023-11-05 2023-11-03 2023-10-30 2023-10-26

edit


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2023-11-19 (日) 01:58:28