В Обучении с подкреплением вы обычно не должны обращать внимание на точные значения ваших потерь.Они не информативны в том смысле, в каком они были бы, например, в контролируемом обучении.Значения потерь следует использовать только для вычисления правильных обновлений для вашего подхода к RL, но они на самом деле не дают вам реального указания того, насколько хорошо или плохо вы делаете.
Это потому, что в RLВаши цели обучения часто не являются стационарными;они часто являются функцией политики, которую вы изменяете (надеюсь, улучшаете!) .Вполне возможно, что по мере улучшения производительности вашего агента RL ваши потери на самом деле возрастают.Благодаря его улучшению, он может обнаруживать новые части своего пространства поиска, которые приводят к новым целевым значениям, к которым ваш агент ранее полностью не обращал внимания.
Ваша единственная действительно надежная метрика того, насколько хорошо работает ваш агент, - это доходыон собирается в оценочных прогонах.