Question

У меня есть агент DQN в сценарии RL (игре), где награды скудные и высокие.
Я пытаюсь следовать статье DeepMinds 2015 Atari от Mnih et. al. и уже реализовали буфер воспроизведения и целевую сеть (клон).
Сеть имеет достаточно информации об окружающей среде и получает вознаграждение, когда счет в игре увеличивается.

Я заметил, что функция потерь чрезвычайно высока для мини-пакетов, содержащих ситуацию оценки (высокое вознаграждение).
Сеть имеет три скрытых слоя размером с вход (~ 25), поэтому я Я не понимаю, почему это объясняет большой разброс вознаграждений для разных состояний.
Кто-нибудь видел что-то вроде этого:

У DQN есть всплески в редких ситуациях вознаграждения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

У DQN есть всплески в редких ситуациях вознаграждения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы