Вознаграждение не увеличивается за проблему выхода из лабиринта с DQN - PullRequest
0 голосов
/ 01 июня 2019

Я использую глубокое обучение подкрепления для решения классической задачи по выходу из лабиринта, аналогично предоставленной реализации здесь , за исключением следующих трех ключевых отличий:

  1. вместо использования массива numpy в качестве входных данных для стандартной задачи по выходу из лабиринта, на каждом шаге я кормлю модель изображением; изображение 1300 * 900 RGB, поэтому оно не слишком маленькое.

  2. награда:

    • каждое действительное движение имеет небольшую отрицательную награду (штрафовать за длинный ход)
    • каждый неверный ход имеет большую отрицательную награду (сталкиваются с другими объектами или границами)
    • Каждый заблокированный ход имеет минимальное вознаграждение (не часто)
    • Найдите, что дефект удаленных детекторов имеет положительное вознаграждение (5)
  3. Я подправил параметры памяти воспроизведения, уменьшил размер буфера памяти воспроизведения.

Что касается реализации, я, по сути, не изменяю настройку агента, кроме вышеперечисленных пунктов, и я реализовал env, чтобы обернуть свой измененный лабиринт.

Но проблема в том, что накопленная награда (первые 200 раундов успешного побега) не увеличивается:

enter image description here

И количество шагов, необходимых для выхода из одного лабиринта, также несколько стабильно:

enter image description here

Вот мой вопрос, на какой аспект я мог бы начать смотреть, чтобы оптимизировать мою проблему? Или еще слишком рано, и мне нужно больше тренироваться?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...