Question

Я использую глубокое обучение подкрепления для решения классической задачи по выходу из лабиринта, аналогично предоставленной реализации здесь , за исключением следующих трех ключевых отличий:

вместо использования массива numpy в качестве входных данных для стандартной задачи по выходу из лабиринта, на каждом шаге я кормлю модель изображением; изображение 1300 * 900 RGB, поэтому оно не слишком маленькое.
награда:
- каждое действительное движение имеет небольшую отрицательную награду (штрафовать за длинный ход)
- каждый неверный ход имеет большую отрицательную награду (сталкиваются с другими объектами или границами)
- Каждый заблокированный ход имеет минимальное вознаграждение (не часто)
- Найдите, что дефект удаленных детекторов имеет положительное вознаграждение (5)
Я подправил параметры памяти воспроизведения, уменьшил размер буфера памяти воспроизведения.

Что касается реализации, я, по сути, не изменяю настройку агента, кроме вышеперечисленных пунктов, и я реализовал env, чтобы обернуть свой измененный лабиринт.

Но проблема в том, что накопленная награда (первые 200 раундов успешного побега) не увеличивается:

И количество шагов, необходимых для выхода из одного лабиринта, также несколько стабильно:

Вот мой вопрос, на какой аспект я мог бы начать смотреть, чтобы оптимизировать мою проблему? Или еще слишком рано, и мне нужно больше тренироваться?

Вознаграждение не увеличивается за проблему выхода из лабиринта с DQN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Вознаграждение не увеличивается за проблему выхода из лабиринта с DQN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы