Question

В настоящее время я использую базовый уровень PPO2 в OpenAI для разработки политики для нескольких сред (горный автомобиль-непрерывный, двуногий, понг и т. Д.).Я вижу, что тренировки идут хорошо, так как величина потерь уменьшается.Я даже указал --save_path, и файл сохраняется правильно.

Но теперь я совершенно заблудился, что я могу сделать с этим сохраненным файлом.Как мне использовать эту политику.Я намерен использовать эту обученную политику, чтобы позволить агенту провести несколько демонстраций из разных начальных состояний.

Я не мог найти правильный ответ на этот вопрос ни на одном из форумов.Пожалуйста, помогите.

Как использовать обученную политику в OpenAI Baseline

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как использовать обученную политику в OpenAI Baseline

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы