Question

Я новичок в обучении для подкрепления. Я прочитал об алгоритме PPO и использовал стабильную базовую библиотеку для обучения агента с использованием PPO. Поэтому мой вопрос здесь заключается в том, как я могу оценить подготовленного агента RL. Рассмотрим проблему регрессии или классификации. У меня есть такие метрики, как r2_score или точность и т. Д. Существуют ли такие параметры или как я могу проверить агента, сделайте вывод, что агент обучен хорошо или плохо.

Спасибо

Afshin Oroojlooy · Answer 1 · 31 октября 2019

Вы можете запустить свою среду со случайной политикой, а затем запустить ту же среду с тем же случайным начальным числом с помощью обученной модели PPO. Сравнение накопленных вознаграждений дает вам некоторые начальные мысли о производительности обученной модели.

Поскольку вы используете PPO, вы можете проверить траектории градиентов и значения дивергенции KL, чтобы убедиться, что у вас есть четко определенный порог для принятия шага градиента. Если допустимого шага градиента очень мало, вы можете изменить свои параметры.

Как вы оцениваете обученного агента по подкреплению, обучен он или нет?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как вы оцениваете обученного агента по подкреплению, обучен он или нет?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы