openai-gym pong: как сделать reset () более случайным - PullRequest
1 голос
/ 07 октября 2019

Я реализовал агента dqn, и после нескольких часов обучения награда остается неизменной 20-21.
Когда я хочу увидеть игру агента, я вижу, что один и тот же ход воспроизводится снова и снова. env при сбросе всегда стреляет мячом в одном и том же направлении, и мой агент научился играть именно это движение и никогда не проигрывать.
Это поведение env в тренажерном зале? Как я могу сделать сброс ENV более случайным? Я использую оболочку NoopResetEnv, это не помогает!

...