По-моему, не существует стандарта, скажем, но комбинаций
1-Как, если вы хотите создать более глубокую сеть, вы можете использовать остаточный блок, чтобы избежать проблемы исчезающего градиента.
2-Стандарт использования свертки 3,3 заключается в том, что он сокращает вычислительные затраты, исключая возможность одновременной свертки 3,3 при достижении 7,7 свертки при меньших затратах
3-Основной причиной отсева является введение регуляризации, что также может быть достигнуто путем нормализации партии, как утверждает автор.
4-Прежде чем что-то улучшать и как улучшать, нужно понять проблему, которую он пытается решить.
Вы можете пройти тематическое исследование, которое преподавали в Стэндфорде.
Стандартное тематическое исследование
Видео может помочь вам понять многие из этих комбинаций и то, как они приводят к улучшению модели, и может помочь вам построить вашу сеть.