В настоящее время я использую базовый уровень PPO2 в OpenAI для разработки политики для нескольких сред (горный автомобиль-непрерывный, двуногий, понг и т. Д.).Я вижу, что тренировки идут хорошо, так как величина потерь уменьшается.Я даже указал --save_path, и файл сохраняется правильно.
Но теперь я совершенно заблудился, что я могу сделать с этим сохраненным файлом.Как мне использовать эту политику.Я намерен использовать эту обученную политику, чтобы позволить агенту провести несколько демонстраций из разных начальных состояний.
Я не мог найти правильный ответ на этот вопрос ни на одном из форумов.Пожалуйста, помогите.