Вы можете запустить свою среду со случайной политикой, а затем запустить ту же среду с тем же случайным начальным числом с помощью обученной модели PPO. Сравнение накопленных вознаграждений дает вам некоторые начальные мысли о производительности обученной модели.
Поскольку вы используете PPO, вы можете проверить траектории градиентов и значения дивергенции KL, чтобы убедиться, что у вас есть четко определенный порог для принятия шага градиента. Если допустимого шага градиента очень мало, вы можете изменить свои параметры.