Я пытаюсь выполнить обучение на нескольких графических процессорах с помощью TensorFlow Object Detection API.
Что я вижу в моем NVIDIA-SMI, так это то, что фактически используется только 1 графический процессор. На остальные 3 предоставленных графических процессора загружен процесс графического процессора, но использование памяти составляет 300 МБ, а использование постоянно находится на уровне 0%
Я использую сеть на основе SSD MobileNetV1, предварительно обученную на COCO, а затем обучаюсьэто с моим пользовательским набором данных.
Я ожидаю, что когда я предоставлю Tensorflow больше графических процессоров, фреймворк фактически использует их для ускорения обучения.