Как вы оцениваете обученного агента по подкреплению, обучен он или нет? - PullRequest
0 голосов
/ 30 октября 2019

Я новичок в обучении для подкрепления. Я прочитал об алгоритме PPO и использовал стабильную базовую библиотеку для обучения агента с использованием PPO. Поэтому мой вопрос здесь заключается в том, как я могу оценить подготовленного агента RL. Рассмотрим проблему регрессии или классификации. У меня есть такие метрики, как r2_score или точность и т. Д. Существуют ли такие параметры или как я могу проверить агента, сделайте вывод, что агент обучен хорошо или плохо.

Спасибо

1 Ответ

0 голосов
/ 31 октября 2019

Вы можете запустить свою среду со случайной политикой, а затем запустить ту же среду с тем же случайным начальным числом с помощью обученной модели PPO. Сравнение накопленных вознаграждений дает вам некоторые начальные мысли о производительности обученной модели.

Поскольку вы используете PPO, вы можете проверить траектории градиентов и значения дивергенции KL, чтобы убедиться, что у вас есть четко определенный порог для принятия шага градиента. Если допустимого шага градиента очень мало, вы можете изменить свои параметры.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...