Как адаптировать PPO от непрерывного к дискретному пространству действия

Алгоритм vanilla clip-PPO хорошо работает для пространств непрерывного действия (MountainCarContinuous), но мой вопрос заключается в том, как адаптировать его к дискретным пространствам действия (MountainCar). Проблема RL, с которой я борюсь, - это эпизоды c, поэтому я подумал, что использование MountainCar в качестве примера будет хорошим началом.

Как адаптировать PPO от непрерывного к дискретному пространству действия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как адаптировать PPO от непрерывного к дискретному пространству действия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы