各OS毎の対応(2022.12.18)

OS提供バージョンリポジトリなど
RockyLinux 922.05.6
23.02.7
epel
rocky-release-hpc
RockyLinux 820.11.9
22.05.11
23.02.7
epel
rocky-release-hpc
rocky-release-hpc
CentOS 720.11.9epel
Ubuntu 20.0419.05.5universe
Ubuntu 22.0421.08.5universe
Ubuntu 24.0423.11.4universe

起点を「/opt/slrum」にして設定ファイルも同じく「/opt/slurm/etc」に配置させ
この「/opt/slrum」を共有させればいいのかなと思うが、そうなるとパッケージを用意する必要になる. クラスターが単一OSなら. ヘテロOS環境なら既存のパッケージでいいのかも

っで作ってみた(ubuntuの計算ノードとかには使えないけど)
*ubuntuのパッケージ作成方法はよく分からないので、作ってないです. ubuntu系はソースから作成なのかも

作成方法はhttps://slurm.schedmd.com/quickstart_admin.htmlに従います.

まずはソースのtar.bz2を用意します

[root@slurm ~]# cat /etc/redhat-release
Rocky Linux release 9.4 (Blue Onyx)
 
[root@slurm ~]# git clone https://github.com/SchedMD/slurm.git
[root@slurm ~]# cd slurm/
[root@slurm slurm]# git tag | tail -n 3
slurm-24-05-3-1
slurm-24-05-4-1
start
[root@slurm slurm]#
[root@slurm slurm]# git checkout slurm-24-05-4-1
[root@slurm slurm]# git branch
* (HEAD detached at slurm-24-05-3-1)
  master
[root@slurm slurm]# cd ..
[root@slurm ~]# tar --exclude-vcs --transform 's/slurm/slurm-24.05.4/' -cvjf slurm-24.05.4.tar.bz2 slurm
 
[root@slurm ~]# tar tvf slurm-24.05.4.tar.bz2 | head -n 3
drwxr-xr-x root/root         0 2024-11-04 22:00 slurm-24.05.4/
-rw-r--r-- root/root       119 2024-11-04 21:59 slurm-24.05.4/AUTHORS
-rw-r--r-- root/root      3624 2024-11-04 21:59 slurm-24.05.4/CONTRIBUTING.md
[root@slurm ~]#

slurmに載せたい機能

slurmの運用で有効にさせたい機能があってここでは下記を有効にしてみた

他にもありましたが、numa, hdf5, ucx, lua はら無効としました.
データベースでアカウント対応を行う「slurmdbd」は小規模なので要らないかなと思ったのですが、「mariadb-devel」は必要でした

っでこれら有効にしたい機能を実現させるために追加のパッケージを入れて置きます

dnf groupinstall "Development tools"
dnf install --enablerepo=devel,epel munge-devel readline-devel pam-devel perl-ExtUtils-MakeMaker perl-interpreter perl-devel \
                            hwloc-devel mariadb-devel pmix-devel freeipmi-devel dbus-devel python3 json-c-devel lz4-devel librdkafka-devel \
                            libcurl-devel man2html-core http-parser-devel libyaml-devel libjwt-devel json-devel libselinux-devel
 
dnf localinstall /Public/cuda/cuda-repo-rhel9-12-6-local-12.6.0_560.28.03-1.x86_64.rpm
dnf install cuda-nvml-devel-12-6
 
dnf remove cuda-repo-rhel9-12-6-local-12.6.0_560.28.03-1.x86_64
 
(centos7なら)
yum groupinstall "Development Tools"
yum install --enablerepo=epel munge-devel readline-devel pam-devel perl-ExtUtils-MakeMaker perl-interpreter perl-devel \
                            hwloc-devel mariadb-devel pmix-devel freeipmi-devel dbus-devel python3 json-c-devel lz4-devel librdkafka-devel \
                           libcurl-devel man2html-core http-parser-devel libyaml-devel libjwt-devel json-devel

numaはnumactl-devel、hdf5はhdf5-devel、ucxはucx-devel、luaはcompat-lua-develが必要

macroファイルの準備

slurm.specを直接いじらず設定ファイル(macro file)を作成します. これでslurm.specの情報を上書きできます

[root@slurm ~]# rpmbuild --version
RPM version 4.16.1.3
 
[root@slurm ~]# vi slurm.rpmmacros
%_prefix /opt/slurm
%_slurm_sysconfdir %{_prefix}/etc
%_with_hwloc 1
%_with_pam 1 --with_pam_dir=/usr/lib64/security
%_with_x11 1
%_with_pmix --with-pmix=/usr
%_with_nvml --with-nvml=/usr/local/cuda-12.6
%_with_freeipmi --with-freeipmi=/usr
%_with_jwt --with-jwt=/usr
%_with_slurmrestd 1
 
[root@slurm ~]#
 
(centos7ではpmixのversionが古いのでpmixの項目を削除します)

x11は有効に
hdf5は「%_with_hdf5 1」、ucxは「%_with_ucx --with-ucx=/usr」、X11は環境がokなら有効になる. luaはパッケージがあればok

rpmbuildでパッケージを作る

[root@slurm ~]# rpmbuild -ta --load slurm.rpmmacros slurm-24.05.4.tar.bz2

RockyLinux8とかCentOS7なら rpmbuild で「--load」が使えないので下記のようにします

cp slurm.rpmmacros  .rpmmacros 
rpmbuild -ta slurm-24.05.4.tar.bz2
rm -rf .rpmmacros

作成されたrpmファイルは

[root@slurm ~]# ls -l rpmbuild/RPMS/x86_64/
 
-rw-r--r--. 1 root root 18728778 Nov  4 22:31 slurm-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root    20011 Nov  4 22:31 slurm-contribs-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root    82412 Nov  4 22:31 slurm-devel-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root    13431 Nov  4 22:31 slurm-example-configs-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root   161861 Nov  4 22:31 slurm-libpmi-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root    12984 Nov  4 22:31 slurm-openlava-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root   150066 Nov  4 22:31 slurm-pam_slurm-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root   834947 Nov  4 22:31 slurm-perlapi-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root   100653 Nov  4 22:31 slurm-sackd-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root  1599748 Nov  4 22:31 slurm-slurmctld-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root  1003788 Nov  4 22:31 slurm-slurmd-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root   916154 Nov  4 22:31 slurm-slurmdbd-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root   212440 Nov  4 22:31 slurm-slurmrestd-24.05.4-1.el9.x86_64.rpm
-rw-r--r--. 1 root root   133064 Nov  4 22:31 slurm-torque-24.05.4-1.el9.x86_64.rpm
 
[root@slurm ~]#

メモ

cudaライブラリ(cuda-nvml-devel)のないところでrpmbuildすると「/usr/lib64/slurm/gpu_nvml.so」が用意されない.
これがないと「/etc/slurm/gres.conf」で「AutoDetect=nvml」が使えない.

メモ2

slurm-23.11から「sackd」が入ったみたい. mungeに代わる認証系パッケージ

最新の60件
2025-01-13 2025-01-12 2025-01-08 2024-12-30 2024-12-29 2024-12-24 2024-12-22 2024-12-20 2024-12-17 2024-12-15 2024-12-14 2024-12-12 2024-12-11 2024-12-10 2024-12-09 2024-12-08 2024-12-04 2024-11-28 2024-11-22 2024-11-15 2024-11-14 2024-11-12 2024-11-06 2024-11-05 2024-11-04 2024-11-02 2024-11-01 2024-10-29 2024-10-28 2024-10-27 2024-10-23 2024-10-18 2024-10-17 2024-10-15 2024-10-14 2024-10-13 2024-10-11 2024-10-10 2024-10-09 2024-10-08 2024-10-05 2024-10-04 2024-10-03

edit


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2024-11-05 (火) 01:27:27