cryoSPARCで使用しているGPUノードが落ちる...具体的には下記のようなメッセージが表示されて

[Sat Mar 30 11:11:00 2024] NVRM: GPU at PCI:0000:08:00: GPU-b16aa6e6-2294-0184-2222-1f8c97384819
[Sat Mar 30 11:11:00 2024] NVRM: Xid (PCI:0000:08:00): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus.
[Sat Mar 30 11:11:00 2024] NVRM: GPU 0000:08:00.0: GPU has fallen off the bus.
[Sat Mar 30 11:11:00 2024] NVRM: A GPU crash dump has been created. If possible, please run
                           NVRM: nvidia-bug-report.sh as root to collect this data before
                           NVRM: the NVIDIA kernel module is unloaded.

nvidia-smiと実行すると

Unable to determine the device handle for GPU0000:08:00.0: Unknown Error

またlsmodでkernelが現状抱えているnvidiaカーネルモジュールはというと「lsmod | grep nvidia」から

nvidia_uvm           4882432  6
nvidia_drm            122880  9
nvidia_modeset       1355776  9 nvidia_drm
nvidia              54140928  242 nvidia_uvm,nvidia_modeset
video                  77824  1 nvidia_modeset
drm_kms_helper        262144  1 nvidia_drm
drm                   761856  13 drm_kms_helper,nvidia,nvidia_drm

であった. lsof で何に食われれているかを調べると cryoSPARC がまた噛んでいた.

最新の60件
2024-05-21 2024-05-16 2024-04-26 2024-04-19 2024-04-18 2024-04-15 2024-04-11 2024-04-06 2024-04-05 2024-03-30
  • GPU
2024-03-29 2024-03-19 2024-03-17 2024-03-15 2024-03-06 2024-03-05 2024-03-03 2024-02-23 2024-02-22 2024-02-21 2024-02-20 2024-02-19 2024-02-18 2024-02-17 2024-02-13 2024-02-12 2024-02-09 2024-02-04 2024-02-03 2024-01-31 2024-01-30 2024-01-29 2024-01-28 2024-01-22 2024-01-16 2024-01-13 2024-01-09 2024-01-08 2024-01-07 2024-01-03 2023-12-22 2023-12-17

edit


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2024-03-30 (土) 19:25:48