Проблема, с которой я столкнулся, - это эпизоды c (с ранней остановкой, когда агент достигает состояния цели или состояния избегания) и с отложенными наградами (агент получает вознаграждение +1 при достижении состояния цели и наказывается -1 при достижении состояния избегания ). Пространство состояний непрерывно, а пространство действий дискретно. Я обнаружил, что DQN / DDQN / усредненный DQN хорошо учатся (после того, как я сформирую награды с помощью потенциального функционального агента, он достигает целевого состояния впервые в 200 эпизодах). Тем не менее, производительность PPO-клипа, как при https://github.com/ChintanTrivedi/rl-bot-football обучении, очень медленная (агент достигает состояния цели впервые в 3000 эпизодах). Можно ли как-то настроить PPO-клип для эпизодов c с проблемами ранней остановки и отложенного вознаграждения?