負荷テスト

簡単にはCUDAライブラリのインストール時についてくる deviceQuery(/usr/local/cuda/samples/1_Utilities/deviceQuery) がお手軽.
だがメモリーはあんまり使ってくれないので微妙との話もあるみたい

より強く負荷テストを行うには gpu-burn がいいみたい
本家様 https://github.com/wilicc/gpu-burn

っでこれを仕込んでみた

[root@rockylinux ~]# cd /apps/src/
 
[root@rockylinux src]# git clone https://github.com/wilicc/gpu-burn
 
[root@rockylinux src]# cd gpu-burn
[root@rockylinux gpu-burn]# ls -l
total 48
-rw-r--r--. 1 root root  2681 Jul  5 22:14 compare.cu
-rw-r--r--. 1 root root   244 Jul  5 22:14 Dockerfile
-rw-r--r--. 1 root root 24815 Jul  5 22:14 gpu_burn-drv.cpp
-rw-r--r--. 1 root root  1318 Jul  5 22:14 LICENSE
-rw-r--r--. 1 root root   760 Jul  5 22:14 Makefile
-rw-r--r--. 1 root root  1271 Jul  5 22:14 README.md
[root@rockylinux gpu-burn]#
 
[root@rockylinux gpu-burn]# make
 
[root@rockylinux gpu-burn]# ls -l
total 244
-rw-r--r--. 1 root root   2681 Jul  5 22:14 compare.cu
-rw-r--r--. 1 root root   7147 Jul  5 22:15 compare.ptx
-rw-r--r--. 1 root root    244 Jul  5 22:14 Dockerfile
-rwxr-xr-x. 1 root root  83760 Jul  5 22:15 gpu_burn               <--- できたバイナリ
-rw-r--r--. 1 root root  24815 Jul  5 22:14 gpu_burn-drv.cpp
-rw-r--r--. 1 root root 102456 Jul  5 22:15 gpu_burn-drv.o
-rw-r--r--. 1 root root   1318 Jul  5 22:14 LICENSE
-rw-r--r--. 1 root root    760 Jul  5 22:14 Makefile
-rw-r--r--. 1 root root   1271 Jul  5 22:14 README.md
[root@rockylinux gpu-burn]#

使い方は

[root@rockylinux gpu-burn]# ./gpu_burn -h
GPU Burn
Usage: gpu_burn [OPTIONS] [TIME]
 
-m <MBytes>     Use such mem. >48/96M.
-m <N>% Use such % of free mem. Default is90%
-d      Use doubles
-tc     Use Tensor cores
-h      Show this help message
 
Example:
gpu-burn -d 3600
[root@rockylinux gpu-burn]#

とあるので、単純に「gpu_burn -m 100%」として実行. 「-m 100%」でGPUに搭載のメモリーを全て使った負荷テスト
TIMEを指定していないので1minで終わります.

[root@rockylinux gpu-burn]# ./gpu_burn -m 100%
Run length not specified in the command line. Burning for 10 seconds.
GPU 0: NVIDIA RTX A2000 (UUID: GPU-23cc3ee7-31d3-a068-2f61-5aa00052d084)
Initialized device 0 with 5940 MB of memory (5775 MB available, using 5775 MB of it), using FLOATS
Results are 16777216 bytes each, thus performing 358 iterations
80.0%  proc'd: 358 (731 Gflop/s)   errors: 0   temps: 69 C
        Summary at:   Tue Jul  5 22:24:55 JST 2022
 
100.0%  proc'd: 358 (731 Gflop/s)   errors: 0   temps: 69 C
        Summary at:   Tue Jul  5 22:24:57 JST 2022
 
100.0%  proc'd: 358 (731 Gflop/s)   errors: 0   temps: 70 C
Killing processes.. Freed memory for dev 0
Uninitted cublas
done
 
Tested 1 GPUs:
        GPU 0: OK
[root@rockylinux gpu-burn]#

実行途中のnvidia-smiは下記になります

[root@rockylinux ~]# nvidia-smi
Tue Jul  5 22:25:06 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.43.04    Driver Version: 515.43.04    CUDA Version: 11.7     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  NVIDIA RTX A2000    Off  | 00000000:13:00.0 Off |                  Off |
| 41%   73C    P2    69W /  70W |   5924MiB /  6138MiB |    100%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
 
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A      2466      G   /usr/libexec/Xorg                  10MiB |
|    0   N/A  N/A      7009      G   /usr/bin/gnome-shell                3MiB |
|    0   N/A  N/A    218201      C   ./gpu_burn                       5907MiB |
+-----------------------------------------------------------------------------+
[root@rockylinux ~]#

73度まで上がって41%のファン回転のようです.

複数のGPUの場合は?
「gpu_burn」は基本すべてのGPUを使って負荷テストを行いますので、そのままでOK

特定のGPUで負荷テストは?
「CUDA_VISIBLE_DEVICES=0,2 ./gpu_burn」で行ける。 GPUIDの0と2で負荷テストを実施します
デバイスの番号は正確には deviceQuery の値かも知れない

gpu-burnでGPUが扱ける..

再起動すれば元に戻りますが、そのGPUは高負荷には耐えられないとなる.
っでどうするの?になりますが、
無保証承知ならGPUを計算機から取り外して、GPUカードの蓋を開けて、GPUチップに付いているヒートシンクを外します。
っで、GPUチップの表面とヒートシンクの表面をキムワイプでキレイにして、
熱伝導性のいいグリースをGPUチップの表面に塗り、再度ヒートシンクをくっつけて再構築します
あくまでも自己責任です.

一応これで改善したGPUがありましたが、全て自己責任ですね.

予算があるなら仕事に使う目的なので今流通しているGPUカードを購入して差し替えかな.
予算が厳しいなら「ダメもと」でチャレンジでしょうか.

最新の60件
2025-02-17 2025-02-15 2025-02-14 2025-02-12 2025-02-03 2025-02-02 2025-02-01 2025-01-27 2025-01-26 2025-01-25 2025-01-24 2025-01-23
  • CUDA/gpu-burn
2025-01-20 2025-01-13 2025-01-12 2025-01-08 2024-12-30 2024-12-29 2024-12-22 2024-12-20 2024-12-17 2024-12-15 2024-12-14 2024-12-12 2024-12-11 2024-12-10 2024-12-09 2024-12-08 2024-11-28 2024-11-22 2024-11-15 2024-11-14 2024-11-12 2024-11-06 2024-11-05 2024-11-04 2024-11-02 2024-11-01 2024-10-28 2024-10-27 2024-10-23 2024-10-18 2024-10-17 2024-10-15 2024-10-14

edit


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2025-01-23 (木) 20:56:13