Question

Я совершенно новичок в компьютерном зрении и пытаюсь обучить модель, которая берет нормальное трехканальное изображение (RGB) и выдает выходной сигнал, который представляет собой простую двоичную маску.Насколько я знаю, архитектура под названием Unet делает что-то подобное.Например, TernausnetV2 работал довольно хорошо в соревнованиях по борьбе.В этом типе архитектуры модели, правильный ли ввод и вывод, о котором я думаю?

У меня есть 3-канальное изображение (RGB) и бинарное маскированное изображение (такого же размера, как 3-канальное изображение, ивсе значения 1 или 0).Спасибо за помощь в предыдущем.

mrkolarik · Answer 1 · 22 сентября 2019

Задача компьютерного зрения, о которой вы говорите, называется семантической сегментацией, а модель U-Net - это базовая архитектура автоэнкодера, используемая для решения проблем.В настоящее время существует множество моделей, основанных на U-Net (одна из них - Ternausnet), некоторые сравнения можно найти в статьях с кодом SOTA для сравнения ссылка .Архитектура U-Net обычно использует 3-канальный входной размер для обработки изображения RGB и 1-канальный выходной размер - модели обычно используют в качестве конечного слоя слой свертывания сигмовидной активации с размером ядра 1x1, который в основном проходит через все изображение и на каждом пикселе вычисляет сигмовидную функцию- wikipedia ссылка , которая присваивает каждому пикселю значения от 0 до 1 (в зависимости от величины данных, которую вы можете использовать, также tanh - -1/1).Более подробную информацию можно найти в этом удивительном учебнике от Towards data science link

Unet ввод и вывод

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Unet ввод и вывод

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы