Архитектура глубокого обучения для ввода и вывода различного размера? - PullRequest
0 голосов
/ 24 октября 2018

Я довольно новичок в области глубокого обучения и пытаюсь поиграть с Tensorflow и Keras.Я работал над некоторыми учебными пособиями, в которых объясняется, как использовать CNN для помеченных данных.

Теперь я хочу попробовать что-то другое.У меня есть входные данные размера (m, n, o) и выходные данные размера (m, n, p).Таким образом, входные и выходные данные имеют одинаковое количество пикселей (m, n), но разное количество каналов.Используя параметры o на пиксель, должен быть сгенерирован выходной пиксель с p каналами.

Как мне этого добиться?Является ли CNN правильной архитектурой или я должен использовать другую архитектуру?Знаете ли вы какие-либо учебники или модные слова по этой проблеме?

Ответы [ 2 ]

0 голосов
/ 24 октября 2018

Применимая фраза в моей части пространства ума - «образ-2-образ».Хотите ли вы CNN, во многом зависит от того, что включает ваш перевод.Если преобразование из o каналов в p каналов не зависит от контекста, то CNN является огромным избыточным.

Например, если вы пытаетесь выполнить перевод с отображаемых люминофоров (RGB) до разделения принтера (CYMK), тогда вам нужно только простое умножение матриц на каждый отдельный пиксель.

Если вместо этого вы используете пространственную близость и региональные особенности для преобразования - с использованием соседних пикселейраспознавать фигуры, а затем генерировать выходное изображение из этих региональных фигур - тогда требуется CNN.

0 голосов
/ 24 октября 2018

Вы можете посмотреть Семантическая сегментация .Это звучит очень похоже.Обычно вход имеет 3 канала (RGB), а количество выходных каналов равно количеству классов, которые вы хотите обнаружить.

Для этой задачи существует несколько архитектур на основе CNN, некоторые из которых описаны вссылка выше, которая может быть использована для вашей задачи.

...