1. 管理ノードにslurmをインストール

slurmパッケージを構築した管理ノードでは、下記パッケージをインストールする
*全部のパッケージをインストールしても構わない

[root@slurm ~]# yum install epel-release
[root@slurm ~]# yum localinstall slurm-20.11.2-1.el7.x86_64.rpm \
                                 slurm-slurmctld-20.11.5-1.el7.x86_64.rpm \
                                 slurm-example-configs-20.11.5-1.el7.x86_64.rpm
[root@slurm ~]#

稼働に必要なフォルダ類は別途作成して、所有者をslurm:slurmに変更しておく.
設定ファイルのサンプルを所定の場所にコピーします.

[root@slurm ~]# mkdir -p              /var/spool/slurm/ctld
[root@slurm ~]# chown slurm:slurm /var/spool/slurm/ctld
 
[root@slurm ~]# cp /etc/slurm/slurm.conf.example /etc/slurm/slurm.conf
 
[root@slurm ~]# grep -v -e '^\s*#' -e '^\s*$' /etc/slurm/slurm.conf

調整の例:slurm/slurm.conf
留意 このslurm.confファイルで計算ノードとqueueの定義を行います.

インストールが完了すると、起動デーモンにslurmctldが登録される。

firewallの穴は計算ノートのslurmdからの通信 6818/TCP を受けるので

[root@slurm ~]# firewall-cmd --add-port=6817-6818/tcp --zone=public --permanent
[root@slurm ~]# firewall-cmd --reload

とします

[root@slurm ~]# systemctl enable munge slurmctld 
[root@slurm ~]# systemctl start munge slurmctld

StateSaveLocationの場所(「/var/spool/slurm/ctld」)に各種のstateファイルが置かれます。

この段階で、sinfoとかで確認が出来る

[root@slurm ~]# sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
batch*       up   infinite      3   unk* n[1-3]
debug     inact    1:00:00      1   unk* n1
[root@slurm ~]#
[root@slurm ~]# sinfo -N -l
Tue Sep 26 16:39:05 2017
NODELIST   NODES PARTITION       STATE CPUS    S:C:T MEMORY TMP_DISK WEIGHT AVAIL_FE REASON
n1             1     debug    unknown*    1    1:1:1      1        0      1   (null) none
n1             1    batch*    unknown*    1    1:1:1      1        0      1   (null) none
n2             1    batch*    unknown*    2    2:1:1      1        0      1   (null) none
n3             1    batch*    unknown*    3    3:1:1      1        0      1   (null) none
[root@slurm ~]#

トップ   編集 添付 複製 名前変更     ヘルプ   最終更新のRSS
Last-modified: 2021-04-18 (日) 23:40:13 (102d)