Я использую большой экземпляр p3.2 для обучения модели.
В тестовой машине с gtx 1070 одна итерация занимает 0,45 секунды.На экземпляре p3 время составляет 0,22 секунды.
Хотя оно явно ниже, я ожидал гораздо большего улучшения производительности.
Загрузка графического процессора составляет около 84%.
Есть ли что-то, что мне не хватает?или это реальное повышение производительности одного V100?
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 410.79 Driver Version: 410.79 CUDA Version: 10.0 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla V100-SXM2... On | 00000000:00:1E.0 Off | 0 |
| N/A 63C P0 107W / 300W | 15593MiB / 16130MiB | 84% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| 0 25135 C python 15583MiB |
+-----------------------------------------------------------------------------+