ジョブ発行ノードには「pbspro-client-14.1.0-0.x86_64.rpm」パッケージをインストールします

[root@client ~]# yum localinstall ./pbspro-client-14.1.0-0.x86_64.rpm
 :
*** PBS Installation Summary
***
*** Postinstall script called as follows:
*** /opt/pbs/libexec/pbs_postinstall client 14.1.0 /opt/pbs
***
*** No configuration file found.
*** Creating new configuration file: /etc/pbs.conf
*** Replacing /etc/pbs.conf with /etc/pbs.conf.14.1.0
*** /etc/pbs.conf has been created.
***
***
*** =======
*** NOTICE:
*** =======
*** The value of PBS_SERVER in /etc/pbs.conf is invalid.
*** PBS_SERVER should be set to the PBS Pro server hostname.
*** Update this value before starting PBS Pro.
***
*** The PBS commands have been installed in /opt/pbs/bin.
***
*** End of /opt/pbs/libexec/pbs_postinstall
 :
[root@client ~]#

と途中で設定を行ってくれますが、注意点の指摘があります

  • 設定ファイル「/etc/pbs.conf」にジョブ管理ノード(PBS Pro server)のホスト名を記載せよ
    [root@client ~]# vi /etc/pbs.conf
    - PBS_SERVER=CHANGE_THIS_TO_PBS_PRO_SERVER_HOSTNAME
    + PBS_SERVER=pbspro.sybyl.local                        <-- ジョブ管理ノードを記載

と変更を加えます。
clientはデーモンの起動は必要なくこれだけで動くのですが、このバージョンのバグのようで
正しく動きません。

[root@client ~]# pbsnodes -aS
pbsconf error: pbs conf variables not found:  PBS_HOME
pbsnodes: cannot connect to server , error=0
[root@client ~]#

と「PBS_HOME」の定義が求められます。
*これは https://pbspro.atlassian.net/browse/PP-582 にも掲載されているが、最新版では修正されているようです。

修正方法ですが、/etc/pbs.confに「PBS_HOME」を加えます。

[root@client ~]# vi /etc/pbs.conf
PBS_SERVER=pbspro.sybyl.local
PBS_START_SERVER=0
PBS_START_SCHED=0
PBS_START_COMM=0
PBS_START_MOM=0
PBS_EXEC=/opt/pbs
PBS_CORE_LIMIT=unlimited
PBS_SCP=/bin/scp
PBS_HOME=/var/lib/pbs            <--- 追加
 
[root@client ~]#

「/var/lib/pbs」は実態がなくても構いません。
そうすれば、

[root@client ~]# pbsnodes -S n1
vnode           state           OS       hardware host            queue        mem     ncpus   nmics   ngpus  comment
--------------- --------------- -------- -------- --------------- ---------- -------- ------- ------- ------- ---------
n1              free            --       --       n1              bio             2gb       1       0       0 --
[root@client ~]#

と利用可能になります。

hosts.equiv

発行したジョブの標準出力、標準エラーは、発行したノードに返されます。
計算ノードからジョブ発行ノードへファイルがすんなりコピーされればいいのですが、
適切に設定がなされていないとエラーとなります。
簡単には rsh-server パッケージを入れて/etc/hosts.equivを設定すれば回避可能

[root@client ~]# yum install rsh-server
[root@client ~]# systemctl enable rexec.socket rsh.socket
[root@client ~]# systemctl start rexec.socket rsh.socket
[root@client ~]# cat /etc/hosts.equiv
+
 
[root@client ~]#

トップ   編集 添付 複製 名前変更     ヘルプ   最終更新のRSS
Last-modified: 2017-10-01 (日) 21:08:20 (21d)