Итак, давайте начнем с: какова цель реснетов?
Учитывая вход X
, он распространяется через определенный ансамбль слоев, давайте с F(X)
вызовем выход этого ансамбля . Если мы обозначим H(X)
желаемый результат (идеальное отображение, т.е. F(X)!=H(X)
), то получим snet выучить H(X) = F(X) + X
, что может быть записано как F(X) = H(X)-X
, т.е. .
Таким образом, что является усилением re snet?
В re snet отображение следующего слоя выполняется, по крайней мере, так же хорошо, как и предыдущее. Зачем? Потому что, по крайней мере, он изучает отображение личности (F(X)=X
).
Это важный аспект, связанный со сверточными сетями, действительно, сети с глубиной должны работать лучше, чем сети с меньшей глубиной, но это не всегда происходит из-за необходимости построения сети, которая гарантирует такое поведение.
Верно ли это также для плотных сетей? Нет это не так. Существует известная теорема для плотных сетей, которая гласит: любой вид сети эквивалентен двум плотным слоям net с достаточным количеством скрытых единиц, распределенных между двумя слоями. По этой причине нет необходимости увеличивать глубину плотной net, скорее необходимо найти нужное количество скрытых единиц.
Если хотите, можете изучить оригинал статьи Хе и др. 2015.