Я тренирую модель для семантической сегментации.Я использую пакет размером 10 изображений для обучения на одном графическом процессоре.Я одновременно использую одни и те же гиперпараметры для обучения на установке с несколькими GPU (3 GPU).Для нескольких графических процессоров я использую размер пакета в 30 изображений, т. Е. 10 изображений на один графический процессор.
Теоретически, если значения потерь за шаг в каждой эпохе во время обучения будут одинаковым диапазоном значений для обоихучебные процедуры для одного и нескольких графических процессоров?
В моем случае это не то, что я сейчас вижу во время обучения.Потери мульти-GPU в 5 раз больше, чем потери, которые я получаю от одного GPU.
Любые предложения / предложения приветствуются.