нормализация партии пирога в распределенном поезде - PullRequest
0 голосов
/ 10 декабря 2018

Интересно, как распределенная норма обработки дескриптора Pytorch, когда я добавлю уровень пакетной нормы, будет ли механизм Pytorch использовать тот же вызов allreduce для синхронизации перекрестного узла данных?или пакетная норма происходит только на локальном узле.

1 Ответ

0 голосов
/ 10 декабря 2018

Аналогично DataParallel (установите флажок Warning ).Он будет вычислять норму отдельно для каждого узла (или, точнее, для каждого графического процессора).Он также не будет синхронизировать скользящие оценки нормы, но в конце сохранит значения одного из графических процессоров.Таким образом, предполагая, что примеры распределены по кластеру случайным образом, ваш BatchNorm будет работать примерно так, как ожидалось, за исключением того, что его оценки коэффициентов нормализации будут иметь более высокую дисперсию из-за меньших эффективных размеров выборки.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...