cryoSPARCで使用しているGPUノードが落ちる...具体的には下記のようなメッセージが表示されて

[Sat Mar 30 11:11:00 2024] NVRM: GPU at PCI:0000:08:00: GPU-b16aa6e6-2294-0184-2222-1f8c97384819
[Sat Mar 30 11:11:00 2024] NVRM: Xid (PCI:0000:08:00): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus.
[Sat Mar 30 11:11:00 2024] NVRM: GPU 0000:08:00.0: GPU has fallen off the bus.
[Sat Mar 30 11:11:00 2024] NVRM: A GPU crash dump has been created. If possible, please run
                           NVRM: nvidia-bug-report.sh as root to collect this data before
                           NVRM: the NVIDIA kernel module is unloaded.

nvidia-smiと実行すると

Unable to determine the device handle for GPU0000:08:00.0: Unknown Error

またlsmodでkernelが現状抱えているnvidiaカーネルモジュールはというと「lsmod | grep nvidia」から

nvidia_uvm           4882432  6
nvidia_drm            122880  9
nvidia_modeset       1355776  9 nvidia_drm
nvidia              54140928  242 nvidia_uvm,nvidia_modeset
video                  77824  1 nvidia_modeset
drm_kms_helper        262144  1 nvidia_drm
drm                   761856  13 drm_kms_helper,nvidia,nvidia_drm

であった. lsof で何に食われれているかを調べると cryoSPARC がまた噛んでいた.

最新の60件
2024-09-16 2024-09-14 2024-09-12 2024-09-09 2024-09-08 2024-09-06 2024-09-05 2024-09-04 2024-09-02 2024-09-01 2024-08-31 2024-08-28 2024-08-21 2024-08-18 2024-08-17 2024-08-16 2024-08-15 2024-08-14 2024-08-11 2024-08-09 2024-08-01 2024-07-27 2024-07-26 2024-07-16 2024-07-15 2024-07-12 2024-07-07 2024-06-22 2024-06-21 2024-06-17 2024-06-14 2024-06-11 2024-06-10 2024-06-08 2024-06-07 2024-06-02 2024-06-01 2024-05-30 2024-05-16 2024-04-26 2024-04-15 2024-04-11

edit


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2024-03-30 (土) 19:25:48