負荷テスト
簡単にはCUDAライブラリのインストール時についてくる deviceQuery(/usr/local/cuda/samples/1_Utilities/deviceQuery) がお手軽.
だがメモリーはあんまり使ってくれないので微妙との話もあるみたい
より強く負荷テストを行うには gpu-burn がいいみたい
本家様 https://github.com/wilicc/gpu-burn
っでこれを仕込んでみた
[root@rockylinux ~]# cd /apps/src/
[root@rockylinux src]# git clone https://github.com/wilicc/gpu-burn
[root@rockylinux src]# cd gpu-burn
[root@rockylinux gpu-burn]# ls -l
total 48
-rw-r--r--. 1 root root 2681 Jul 5 22:14 compare.cu
-rw-r--r--. 1 root root 244 Jul 5 22:14 Dockerfile
-rw-r--r--. 1 root root 24815 Jul 5 22:14 gpu_burn-drv.cpp
-rw-r--r--. 1 root root 1318 Jul 5 22:14 LICENSE
-rw-r--r--. 1 root root 760 Jul 5 22:14 Makefile
-rw-r--r--. 1 root root 1271 Jul 5 22:14 README.md
[root@rockylinux gpu-burn]#
[root@rockylinux gpu-burn]# make
[root@rockylinux gpu-burn]# ls -l
total 244
-rw-r--r--. 1 root root 2681 Jul 5 22:14 compare.cu
-rw-r--r--. 1 root root 7147 Jul 5 22:15 compare.ptx
-rw-r--r--. 1 root root 244 Jul 5 22:14 Dockerfile
-rwxr-xr-x. 1 root root 83760 Jul 5 22:15 gpu_burn <--- できたバイナリ
-rw-r--r--. 1 root root 24815 Jul 5 22:14 gpu_burn-drv.cpp
-rw-r--r--. 1 root root 102456 Jul 5 22:15 gpu_burn-drv.o
-rw-r--r--. 1 root root 1318 Jul 5 22:14 LICENSE
-rw-r--r--. 1 root root 760 Jul 5 22:14 Makefile
-rw-r--r--. 1 root root 1271 Jul 5 22:14 README.md
[root@rockylinux gpu-burn]#
使い方は
[root@rockylinux gpu-burn]# ./gpu_burn -h
GPU Burn
Usage: gpu_burn [OPTIONS] [TIME]
-m <MBytes> Use such mem. >48/96M.
-m <N>% Use such % of free mem. Default is90%
-d Use doubles
-tc Use Tensor cores
-h Show this help message
Example:
gpu-burn -d 3600
[root@rockylinux gpu-burn]#
とあるので、単純に「gpu_burn -m 100%」として実行. 「-m 100%」でGPUに搭載のメモリーを全て使った負荷テスト
TIMEを指定していないので1minで終わります.
[root@rockylinux gpu-burn]# ./gpu_burn -m 100%
Run length not specified in the command line. Burning for 10 seconds.
GPU 0: NVIDIA RTX A2000 (UUID: GPU-23cc3ee7-31d3-a068-2f61-5aa00052d084)
Initialized device 0 with 5940 MB of memory (5775 MB available, using 5775 MB of it), using FLOATS
Results are 16777216 bytes each, thus performing 358 iterations
80.0% proc'd: 358 (731 Gflop/s) errors: 0 temps: 69 C
Summary at: Tue Jul 5 22:24:55 JST 2022
100.0% proc'd: 358 (731 Gflop/s) errors: 0 temps: 69 C
Summary at: Tue Jul 5 22:24:57 JST 2022
100.0% proc'd: 358 (731 Gflop/s) errors: 0 temps: 70 C
Killing processes.. Freed memory for dev 0
Uninitted cublas
done
Tested 1 GPUs:
GPU 0: OK
[root@rockylinux gpu-burn]#
実行途中のnvidia-smiは下記になります
[root@rockylinux ~]# nvidia-smi
Tue Jul 5 22:25:06 2022
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 515.43.04 Driver Version: 515.43.04 CUDA Version: 11.7 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|===============================+======================+======================|
| 0 NVIDIA RTX A2000 Off | 00000000:13:00.0 Off | Off |
| 41% 73C P2 69W / 70W | 5924MiB / 6138MiB | 100% Default |
| | | N/A |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=============================================================================|
| 0 N/A N/A 2466 G /usr/libexec/Xorg 10MiB |
| 0 N/A N/A 7009 G /usr/bin/gnome-shell 3MiB |
| 0 N/A N/A 218201 C ./gpu_burn 5907MiB |
+-----------------------------------------------------------------------------+
[root@rockylinux ~]#
73度まで上がって41%のファン回転のようです.
複数のGPUの場合は?
「gpu_burn」は基本すべてのGPUを使って負荷テストを行いますので、そのままでOK
特定のGPUで負荷テストは?
「CUDA_VISIBLE_DEVICES=0,2 ./gpu_burn」で行ける。 GPUIDの0と2で負荷テストを実施します
デバイスの番号は正確には deviceQuery の値かも知れない
再起動すれば元に戻りますが、そのGPUは高負荷には耐えられないとなる.
っでどうするの?になりますが、
無保証承知ならGPUを計算機から取り外して、GPUカードの蓋を開けて、GPUチップに付いているヒートシンクを外します。
っで、GPUチップの表面とヒートシンクの表面をキムワイプでキレイにして、
熱伝導性のいいグリースをGPUチップの表面に塗り、再度ヒートシンクをくっつけて再構築します
あくまでも自己責任です.
一応これで改善したGPUがありましたが、全て自己責任ですね.
予算があるなら仕事に使う目的なので今流通しているGPUカードを購入して差し替えかな.
予算が厳しいなら「ダメもと」でチャレンジでしょうか.