cryoSPARCで使用しているGPUノードが落ちる...具体的には下記のようなメッセージが表示されて

[Sat Mar 30 11:11:00 2024] NVRM: GPU at PCI:0000:08:00: GPU-b16aa6e6-2294-0184-2222-1f8c97384819
[Sat Mar 30 11:11:00 2024] NVRM: Xid (PCI:0000:08:00): 79, pid='<unknown>', name=<unknown>, GPU has fallen off the bus.
[Sat Mar 30 11:11:00 2024] NVRM: GPU 0000:08:00.0: GPU has fallen off the bus.
[Sat Mar 30 11:11:00 2024] NVRM: A GPU crash dump has been created. If possible, please run
                           NVRM: nvidia-bug-report.sh as root to collect this data before
                           NVRM: the NVIDIA kernel module is unloaded.

nvidia-smiと実行すると

Unable to determine the device handle for GPU0000:08:00.0: Unknown Error

またlsmodでkernelが現状抱えているnvidiaカーネルモジュールはというと「lsmod | grep nvidia」から

nvidia_uvm           4882432  6
nvidia_drm            122880  9
nvidia_modeset       1355776  9 nvidia_drm
nvidia              54140928  242 nvidia_uvm,nvidia_modeset
video                  77824  1 nvidia_modeset
drm_kms_helper        262144  1 nvidia_drm
drm                   761856  13 drm_kms_helper,nvidia,nvidia_drm

であった. lsof で何に食われれているかを調べると cryoSPARC がまた噛んでいた.

最新の60件
2026-01-18 2026-01-17 2026-01-16 2026-01-12 2026-01-11 2026-01-10 2026-01-09 2026-01-08 2026-01-06 2026-01-04 2026-01-01 2025-12-31 2025-12-28 2025-12-27 2025-12-12 2025-12-11 2025-12-09 2025-12-08 2025-12-07 2025-12-05 2025-11-30 2025-11-27 2025-11-24 2025-11-23 2025-11-18 2025-11-16 2025-11-05 2025-11-03 2025-11-02 2025-10-30 2025-10-29 2025-10-28 2025-10-26 2025-10-25 2025-10-24 2025-10-22 2025-10-21 2025-10-17 2025-10-13 2025-10-11 2025-10-06 2025-10-05

edit


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2024-03-30 (土) 19:25:48