Итак, я просматривал реализации Keras предварительно активированного блока ResNet и обнаружил кое-что интересное. В блоках, которые отвечают за уменьшение размерности, вход в путь идентификации блока берется из уровня предварительной активации ReLU первого уровня CONV, а не из входа в остаточный блок, , как показано в этомfigure
Разве этот тип соединения не будет нарушать парадигму ярлыков «идентичность»? Здесь мы добавляем нелинейность на вход блока перед последней операцией добавления в конце слоя. Так почему же используется такой подход?