У DQN есть всплески в редких ситуациях вознаграждения - PullRequest
0 голосов
/ 09 мая 2020

У меня есть агент DQN в сценарии RL (игре), где награды скудные и высокие.
Я пытаюсь следовать статье DeepMinds 2015 Atari от Mnih et. al. и уже реализовали буфер воспроизведения и целевую сеть (клон).
Сеть имеет достаточно информации об окружающей среде и получает вознаграждение, когда счет в игре увеличивается.

Я заметил, что функция потерь чрезвычайно высока для мини-пакетов, содержащих ситуацию оценки (высокое вознаграждение).
Сеть имеет три скрытых слоя размером с вход (~ 25), поэтому я Я не понимаю, почему это объясняет большой разброс вознаграждений для разных состояний.
Кто-нибудь видел что-то вроде этого:
enter image description here

...