Как использовать обученную политику в OpenAI Baseline - PullRequest
0 голосов
/ 27 ноября 2018

В настоящее время я использую базовый уровень PPO2 в OpenAI для разработки политики для нескольких сред (горный автомобиль-непрерывный, двуногий, понг и т. Д.).Я вижу, что тренировки идут хорошо, так как величина потерь уменьшается.Я даже указал --save_path, и файл сохраняется правильно.

Но теперь я совершенно заблудился, что я могу сделать с этим сохраненным файлом.Как мне использовать эту политику.Я намерен использовать эту обученную политику, чтобы позволить агенту провести несколько демонстраций из разных начальных состояний.

Я не мог найти правильный ответ на этот вопрос ни на одном из форумов.Пожалуйста, помогите.

...