Я пытаюсь сформулировать и решить следующую проблему мутации изображения.Предположим, я пытаюсь вставить изображение объекта в «фоновое» изображение нескольких объектов, и мне нужно будет найти «сладкое пятно» для вставки изображения:
Я предварительно пытаюсь сформулировать проблему в процессе обучения с подкреплением со следующими элементами:
0.начальный этап:
фоновое изображение, на котором было отмечено расположение объектов на изображении (предположим, у нас есть идеальный детектор объектов)
другое изображение нового объекта, скажем, человека
1.пространство действия:
- местоположение (x, y) для вставляемого изображения объекта;в этом смысле пространство действия вполне большое .
2.окружение:
каждый шаг у меня будет новое изображение, чтобы «учиться».
Функция оракула F возвращает 1 или 0 (примерно одно вычисление F занимает 30 секунд).Эта функция сообщает мне, что последние синтезированные изображения попадают в «сладкое пятно» или нет (1 означает попадание).Если это так, я остановлю поиск и верну изображение.
3.ограничение:
вновь вставленный объект не должен перекрываться с исходными объектами на рисунке.
Хотя мое внутреннее чувство заключается в том, что эта проблема чем-то похожа на классическую проблему «спасения от лабиринта», которую можно хорошо решить с помощью обучения подкреплению, пространство действия кажется довольно большим в этой задаче.
Итак, вот мои вопросы:
Если я хотел бы сформулировать эту проблему «украсить» изображение в «глубокую» проблему обучения подкрепления, как я могу учитьсяиз такого большого пространства действий?Или это действительно подходит для процесса обучения подкрепления?
Можно ли как-то включить ограничение "не перекрывающихся" в функцию оракула F ?Если да, то как мне определить награду?Какой-то принципиальный или эмпирический способ решения этого?