Я совершенно новичок в компьютерном зрении и пытаюсь обучить модель, которая берет нормальное трехканальное изображение (RGB) и выдает выходной сигнал, который представляет собой простую двоичную маску.Насколько я знаю, архитектура под названием Unet делает что-то подобное.Например, TernausnetV2 работал довольно хорошо в соревнованиях по борьбе.В этом типе архитектуры модели, правильный ли ввод и вывод, о котором я думаю?
У меня есть 3-канальное изображение (RGB) и бинарное маскированное изображение (такого же размера, как 3-канальное изображение, ивсе значения 1 или 0).Спасибо за помощь в предыдущем.