Question

Я пытаюсь разработать политику глубокого обучения для робототехники. Я пытался тренировать PPO2 в своей среде, где у меня есть одна черепаха. Я тренировал модель для шагов 250K, но процесс кажется очень медленным, после завершения обучения значения вознаграждения увеличились, но результаты не были удовлетворительными. Я хочу использовать несколько роботов в среде, чтобы ускорить процесс, но я не уверен, как это сделать с пользовательской средой. Я планирую добавить больше роботов в среду, а затем составить таблицы наблюдений, действий и действий для всех агентов, прежде чем переходить к стабильным базовым показателям. Это правильный способ использования нескольких агентов?

Настраиваемая векторизованная среда для стабильных базовых показателей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Настраиваемая векторизованная среда для стабильных базовых показателей

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы