ほとんどメモ状態
PCをわんさかネットワークで繋げて
どちらを選ぶかは「ジョブ間の依存関係(プロセス間通信のありなし)」と「計算負荷の性質(リソースの要求次第)」で決まる.
あと最近では「サービス」自体をジョブ管理ノードで管理させる. 計算負荷は低いがずっと存在させたいジョブ。incusをqsub/sbatch/srunで作れないか..
構成としては親玉のログインノードと、あとそれにぶら下がる計算ノードに大別.
ログインノードにストレージを配置するか、別にストレージノードを設置する場合がある。簡易にはログインノードに用意する.
認証機構、nis. ldap. samba-ad とかとか. クラスター外へのサービスとしてsmb共有、webサービス(要ログイン)ならldap, samba-adかな.
ジョブ管理システム slurmやopenpbs. queueの定義でリソース確保制限、時間制限を定義。確保したジョブにsshで入れるとか.
時計サーバ 時間合わせは必須。計算ノードはログインノードの時計サーバを参照させる
ストレージ 単純にnfsでもいいが、場合によってはACLが必要となる場合もあり、NFSv4_ACLで処理できるようにmountコマンドの調整が必要. glusterFS, cephらはリモートでさえもPOSIX ACLが使える.
制限させる
計算ノードへの直接ログインを禁止させ、ジョブ管理経由でないと入れないようにする.
ログインノードで計算を始めさせないように、limitとかでプロセス数らを抑える
topコマンドは自分のみの状況しか写さないとかとか