Представьте, что у вас есть ResNet 34 или 50 (я проверил на этих архитектурах, v1: conv2d-> batchnorm-> relu).
Реализация остаточного соединения: применение ярлыка проекции только на узких местах и простое добавление в других случаях(вариант B из оригинальной статьи https://arxiv.org/pdf/1512.03385.pdf, пункт 3.3 Остаточная сеть).
Какой пункт этого списка вариантов ярлыков проекции приведет к невозможности обучения ResNet34 / 50?:
1) сокращение проекции только в свертке
2) в конво-> batchnorm
3) через конв-> batchnorm-> relu
Iотметит верный ответ (который соответствует моему опыту или имеет веские аргументы) и отредактирует мой пост, добавив информацию о том, что происходит в моем случае после некоторых ответов.