Добавление BatchNorm
после или до activation
все еще остается открытой дискуссией.Оригинальная версия, предложенная авторами, хорошо работает и использовалась во многих реализациях.Но многие люди обнаружили, что BN после активации действительно хорошо работает и помогает в более быстрой конвергенции.Например, проверьте обсуждение в этой ветке.
Короче, это зависит от задачи!Какой из них будет лучше?Вы должны проверить это сами.И да, вы можете контролировать заказ.Например:
x = Conv2D(64, (3,3), activation=None)(inputs)
x = BatchNormalization()(x)
x = Activation("relu")(x)
или
x = Conv2D(64, (3,3), activation="relu")(inputs)
x = BatchNormalization()(x)