Как адаптировать PPO от непрерывного к дискретному пространству действия - PullRequest
0 голосов
/ 04 марта 2020

Алгоритм vanilla clip-PPO хорошо работает для пространств непрерывного действия (MountainCarContinuous), но мой вопрос заключается в том, как адаптировать его к дискретным пространствам действия (MountainCar). Проблема RL, с которой я борюсь, - это эпизоды c, поэтому я подумал, что использование MountainCar в качестве примера будет хорошим началом.

...