Слой после nn.relu
обычно линейный. Выполнение некоторого масштабирования до или после ReLu ничего не изменит (если L
является линейным, L(relu(x))=relu(L(x)) for all x
), поэтому наличие одного масштабирования после нормализации Барча и одного на следующем уровне является избыточным.
Таким образом, вы можете пропустить масштабирование после пакетной нормы, за которой следует ReLu, если у вас есть другой линейный слой после ReLu, что обычно имеет место.