Аналогично DataParallel (установите флажок Warning ).Он будет вычислять норму отдельно для каждого узла (или, точнее, для каждого графического процессора).Он также не будет синхронизировать скользящие оценки нормы, но в конце сохранит значения одного из графических процессоров.Таким образом, предполагая, что примеры распределены по кластеру случайным образом, ваш BatchNorm
будет работать примерно так, как ожидалось, за исключением того, что его оценки коэффициентов нормализации будут иметь более высокую дисперсию из-за меньших эффективных размеров выборки.