Я недавно читал статью Совокупные остаточные преобразования для глубоких нейронных сетей .
Одна вещь, которую автор упоминает в разделе (5.1) , заключается в том, что увеличение количества элементов (или числа ветвей) уменьшает ошибку проверки больше, чем увеличение ширины узкого места или увеличение глубины. Я понимаю часть глубины, но меня немного смущает ширина. Разве мощность остаточного блока не равна ширине узкого места? Если нет, то в чем разница?
Спасибо!
FWIW, ширина - это ширина слоя узкого места, а мощность - это количество ветвей в остаточном блоке.