Настраиваемая векторизованная среда для стабильных базовых показателей - PullRequest
0 голосов
/ 01 апреля 2020

Я пытаюсь разработать политику глубокого обучения для робототехники. Я пытался тренировать PPO2 в своей среде, где у меня есть одна черепаха. Я тренировал модель для шагов 250K, но процесс кажется очень медленным, после завершения обучения значения вознаграждения увеличились, но результаты не были удовлетворительными. Я хочу использовать несколько роботов в среде, чтобы ускорить процесс, но я не уверен, как это сделать с пользовательской средой. Я планирую добавить больше роботов в среду, а затем составить таблицы наблюдений, действий и действий для всех агентов, прежде чем переходить к стабильным базовым показателям. Это правильный способ использования нескольких агентов?

...