cryoSPARCで使用しているGPUノードが落ちる...具体的には下記のようなメッセージが表示されて
[Sat Mar 30 11:11:00 2024] NVRM: GPU at PCI:0000:08:00: GPU-b16aa6e6-2294-0184-2222-1f8c97384819
[Sat Mar 30 11:11:00 2024] NVRM: Xid (PCI:0000:08:00): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus.
[Sat Mar 30 11:11:00 2024] NVRM: GPU 0000:08:00.0: GPU has fallen off the bus.
[Sat Mar 30 11:11:00 2024] NVRM: A GPU crash dump has been created. If possible, please run
NVRM: nvidia-bug-report.sh as root to collect this data before
NVRM: the NVIDIA kernel module is unloaded.
nvidia-smiと実行すると
Unable to determine the device handle for GPU0000:08:00.0: Unknown Error
またlsmodでkernelが現状抱えているnvidiaカーネルモジュールはというと「lsmod | grep nvidia」から
nvidia_uvm 4882432 6
nvidia_drm 122880 9
nvidia_modeset 1355776 9 nvidia_drm
nvidia 54140928 242 nvidia_uvm,nvidia_modeset
video 77824 1 nvidia_modeset
drm_kms_helper 262144 1 nvidia_drm
drm 761856 13 drm_kms_helper,nvidia,nvidia_drm
であった. lsof で何に食われれているかを調べると cryoSPARC がまた噛んでいた.