Я реализовал агента dqn, и после нескольких часов обучения награда остается неизменной 20-21.
Когда я хочу увидеть игру агента, я вижу, что один и тот же ход воспроизводится снова и снова. env при сбросе всегда стреляет мячом в одном и том же направлении, и мой агент научился играть именно это движение и никогда не проигрывать.
Это поведение env в тренажерном зале? Как я могу сделать сброс ENV более случайным? Я использую оболочку NoopResetEnv, это не помогает!