Я хочу обучить CNN с небольшим набором данных, всего 500 изображений. Интересно, рекомендуется ли BatchNormalization только тогда, когда у CNN гораздо больше ConvLayer, чем всего 2?
Цель BatchNormalization должна заключаться в борьбе с проблемой умирающего градиента. И умирающий градиент возможен только тогда, когда у CNN более 2 ConvLayers, верно? И та же самая причина должна быть для ELU, когда сеть больше, верно?
Каков ваш опыт? Я надеюсь на любые подсказки, потому что дело очень важно.