Критическая потеря для агента RL - PullRequest
1 голос
/ 19 сентября 2019

Пока я внедрял агентов для решения различных проблем ... Я видел, что потери моего актера снижаются, как и ожидалось.Но моя потеря критики продолжала увеличиваться, даже несмотря на то, что изученная политика очень.Это происходит для DDPG, PPO и т. Д.

Любые мысли, почему моя потеря критики увеличивается.

Я пытался играть с гиперпараметрами, это фактически ухудшает мою политику.

1 Ответ

3 голосов
/ 19 сентября 2019

В Обучении с подкреплением вы обычно не должны обращать внимание на точные значения ваших потерь.Они не информативны в том смысле, в каком они были бы, например, в контролируемом обучении.Значения потерь следует использовать только для вычисления правильных обновлений для вашего подхода к RL, но они на самом деле не дают вам реального указания того, насколько хорошо или плохо вы делаете.

Это потому, что в RLВаши цели обучения часто не являются стационарными;они часто являются функцией политики, которую вы изменяете (надеюсь, улучшаете!) .Вполне возможно, что по мере улучшения производительности вашего агента RL ваши потери на самом деле возрастают.Благодаря его улучшению, он может обнаруживать новые части своего пространства поиска, которые приводят к новым целевым значениям, к которым ваш агент ранее полностью не обращал внимания.

Ваша единственная действительно надежная метрика того, насколько хорошо работает ваш агент, - это доходыон собирается в оценочных прогонах.

...