Как деконволюция и удаление пула приводят к сегментации изображения? - PullRequest
0 голосов
/ 14 мая 2018

Я изучаю и изучаю область компьютерного зрения и в настоящее время изучаю CNN. Я полностью понимаю концепцию CNN, то есть до уровня Полностью подключенного.

Но, когда я погрузился в задачу сегментации изображений, я наткнулся на следующие статьи:

  • Учебная деконволюционная сеть для семантической сегментации
  • Полностью сверточные сети для семантической сегментации
  • U-Net: сверточные сети для сегментации биомедицинских изображений

Здесь они говорят о свертке и полностью связанных слоях, за которыми следуют деконволюция и распад. Я понял математический аспект деконволюции и объединения, но я не в состоянии понять и, что самое важное, представить себе, как они в конечном итоге приводят к сегментации изображения.

1 Ответ

0 голосов
/ 18 мая 2018

Наша цель : Задача сегментации изображения требует, чтобы ваш вывод имел размерность входных изображений (но с метками вместо цвета пикселей).Вы можете думать об этом как о нескольких задачах классификации (для каждого входного пикселя).

Типичная классификация CNN состоит из серии сверток / пулов, за которыми следуют плотные слои, которые в конечном итоге отображают изображение в «пространство меток».,Это не может работать для сегментации.

A Полностью сверточная сеть - это сеть, которая отображает изображение на другое изображение (с произвольным числом каналов), которое масштабируется по некоторому коэффициенту (в зависимости от шагов объединения).которые были использованы).

Если вы избегаете какого-либо объединения, ваш вывод будет такой же высоты / ширины, как ваш ввод (что является нашей целью).Однако мы хотим уменьшить размер сверток, потому что: а) он намного более вычислительно эффективен (что позволяет нам углубляться) б) он помогает распространять информацию в разных масштабах.

Итак, мы хотим уменьшитьактиваций в размере, а затем увеличить их обратно до исходного размера.Именно здесь в игру вступают Деконволюции .

U-Net - это популярная архитектура, которая выполняет все вышеперечисленное и использует другую критическую концепцию: каждый раз, когда вы производите выборку, вы объединяете(обычно либо добавляют, либо объединяют, не уверен, что именно они использовали в реальной сети U-Net) активированные с повышением частоты выборки с активациями из предыдущих слоев того же размера.Это позволяет вашей сети сохранять мелкие детали, которые в противном случае были бы потеряны (представьте, какой результат вы получите, если вам придется повысить частоту сегментации в 16 или более раз).

Кроме того, эти соединения имеют вторичное (но важное) преимущество: лучшее распространение градиента.Они действуют аналогично пропущенным соединениям в ResNet.

...