Я использую глубокое обучение подкрепления для решения классической задачи по выходу из лабиринта, аналогично предоставленной реализации здесь , за исключением следующих трех ключевых отличий:
вместо использования массива numpy
в качестве входных данных для стандартной задачи по выходу из лабиринта, на каждом шаге я кормлю модель изображением; изображение 1300 * 900 RGB, поэтому оно не слишком маленькое.
награда:
- каждое действительное движение имеет небольшую отрицательную награду (штрафовать за длинный ход)
- каждый неверный ход имеет большую отрицательную награду (сталкиваются с другими объектами или границами)
- Каждый заблокированный ход имеет минимальное вознаграждение (не часто)
- Найдите, что дефект удаленных детекторов имеет положительное вознаграждение (5)
Я подправил параметры памяти воспроизведения, уменьшил размер буфера памяти воспроизведения.
Что касается реализации, я, по сути, не изменяю настройку агента, кроме вышеперечисленных пунктов, и я реализовал env
, чтобы обернуть свой измененный лабиринт.
Но проблема в том, что накопленная награда (первые 200 раундов успешного побега) не увеличивается:
И количество шагов, необходимых для выхода из одного лабиринта, также несколько стабильно:
Вот мой вопрос, на какой аспект я мог бы начать смотреть, чтобы оптимизировать мою проблему? Или еще слишком рано, и мне нужно больше тренироваться?