slurm.confファイルを下記の様に修正する
変更箇所:
1.ClusterName
2.ControlMachine 管理ノードのマシン名
3.SlurmUser 稼動ユーザ
4.StateSaveLocation 各種state情報の格納場所
5.SlurmdSpoolDir スプールディレクトリのありか
6.SlurmctldLogFile 管理ノード発のログファイル
7.SlurmdLogFile 計算ノード発のログファイル
8.NodeName 計算ノードの登録
9.PartitionName queue名とqueueに所属する計算ノード
10.MailProg メール送信プログラム

[root@slurm ~]# cat /etc/slurm/slurm.conf
ClusterName=cluster
SlurmctldHost=slurm
AuthType=auth/munge
 
MpiDefault=none
GresTypes=gpu
ProctrackType=proctrack/cgroup
 
ReturnToService=1
SlurmctldPidFile=/var/run/slurm/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurm/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurm/d
SlurmUser=slurm
SlurmdUser=root
 
StateSaveLocation=/var/spool/slurm/ctld
SwitchType=switch/none
TaskPlugin=task/cgroup
SrunPortRange=60001-63000
 
 
# TIMERS
InactiveLimit=0
KillWait=30
MinJobAge=300
SlurmctldTimeout=120
SlurmdTimeout=300
Waittime=0
 
# SCHEDULING
SchedulerType=sched/backfill
SelectType=select/cons_tres
SelectTypeParameters=CR_Core
 
# JOB PRIORITY
 
# LOGGING AND ACCOUNTING
AccountingStorageType=accounting_storage/none
#AccountingStorageTRES=gres/gpu
AccountingStoreFlags=YES
JobCompType=jobcomp/none
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/cgroup
SlurmctldDebug=info
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=info
SlurmdLogFile=/var/log/slurmd.log
 
# COMPUTE NODES
NodeName=n1 CPUs=1 Boards=1 SocketsPerBoard=1 CoresPerSocket=1 ThreadsPerCore=1 RealMemory=16001 Gres=gpu:1
NodeName=n2 CPUs=2 Boards=1 SocketsPerBoard=1 CoresPerSocket=2 ThreadsPerCore=1 RealMemory=15732 Gres=gpu:1
NodeName=n3 CPUs=4 Boards=1 SocketsPerBoard=1 CoresPerSocket=4 ThreadsPerCore=1 RealMemory=16000
NodeName=s  CPUs=8 Boards=1 SocketsPerBoard=1 CoresPerSocket=4 ThreadsPerCore=2 RealMemory=31712 Gres=gpu:2
 
PartitionName=workq Nodes=ALL Default=YES MaxTime=INFINITE State=UP
 
SlurmctldParameters=enable_configless
 
[root@slurm ~]#

めも

「ReturnToService」の値. DOWNとされた計算ノードが立ち上がった際の取り扱い.
値「0」は計算ノードが立ち上がってslurmdで通信出来ても手動で操作で「idle」に変更する必要がある.
値「1」はメモリ不足とか予期しない再起動でDONWとされたならDOWNのまま. それ以外で復帰後slurm.confに記載されたノード構成なら使えるようになる
値「2」はslurm.confに記載されたノード構成なら利用可能になります. でも何かが起こったよ.

最新の60件
2024-10-11 2024-10-10 2024-10-09 2024-10-08 2024-10-06 2024-10-05 2024-10-04 2024-10-03 2024-10-02 2024-10-01 2024-09-30 2024-09-29 2024-09-28 2024-09-27 2024-09-22 2024-09-20 2024-09-17 2024-09-12 2024-09-09 2024-09-08 2024-09-06 2024-09-05 2024-09-04 2024-09-02 2024-09-01 2024-08-31 2024-08-28 2024-08-18 2024-08-17 2024-08-16 2024-08-15 2024-08-14 2024-08-11

edit


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2023-11-19 (日) 01:58:28