Question

Я реализовал агента dqn, и после нескольких часов обучения награда остается неизменной 20-21.
Когда я хочу увидеть игру агента, я вижу, что один и тот же ход воспроизводится снова и снова. env при сбросе всегда стреляет мячом в одном и том же направлении, и мой агент научился играть именно это движение и никогда не проигрывать.
Это поведение env в тренажерном зале? Как я могу сделать сброс ENV более случайным? Я использую оболочку NoopResetEnv, это не помогает!

openai-gym pong: как сделать reset () более случайным

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

openai-gym pong: как сделать reset () более случайным

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы