Наша цель : Задача сегментации изображения требует, чтобы ваш вывод имел размерность входных изображений (но с метками вместо цвета пикселей).Вы можете думать об этом как о нескольких задачах классификации (для каждого входного пикселя).
Типичная классификация CNN состоит из серии сверток / пулов, за которыми следуют плотные слои, которые в конечном итоге отображают изображение в «пространство меток».,Это не может работать для сегментации.
A Полностью сверточная сеть - это сеть, которая отображает изображение на другое изображение (с произвольным числом каналов), которое масштабируется по некоторому коэффициенту (в зависимости от шагов объединения).которые были использованы).
Если вы избегаете какого-либо объединения, ваш вывод будет такой же высоты / ширины, как ваш ввод (что является нашей целью).Однако мы хотим уменьшить размер сверток, потому что: а) он намного более вычислительно эффективен (что позволяет нам углубляться) б) он помогает распространять информацию в разных масштабах.
Итак, мы хотим уменьшитьактиваций в размере, а затем увеличить их обратно до исходного размера.Именно здесь в игру вступают Деконволюции .
U-Net - это популярная архитектура, которая выполняет все вышеперечисленное и использует другую критическую концепцию: каждый раз, когда вы производите выборку, вы объединяете(обычно либо добавляют, либо объединяют, не уверен, что именно они использовали в реальной сети U-Net) активированные с повышением частоты выборки с активациями из предыдущих слоев того же размера.Это позволяет вашей сети сохранять мелкие детали, которые в противном случае были бы потеряны (представьте, какой результат вы получите, если вам придется повысить частоту сегментации в 16 или более раз).
Кроме того, эти соединения имеют вторичное (но важное) преимущество: лучшее распространение градиента.Они действуют аналогично пропущенным соединениям в ResNet.