Я новичок в Deep RL и хотел бы тренировать свою собственную гимнастическую среду в RLLIB с помощью алгоритма PPO. Тем не менее, я испытываю некоторые трудности с проверкой успешности моих настроек гиперпараметра. Помимо очевидного episode_reward_mean metri c, который должен подняться, у нас есть много других графиков.
Меня особенно интересует, как энтропия должна развиваться во время успешного обучения. В моем случае это выглядит так:
entropy.jpg
Обычно оно падает ниже 0 и затем сходится. Я понимаю, что энтропия как часть функции потерь стимулирует исследование и может ускорить процесс обучения. Но почему это становится отрицательным? Разве оно не должно быть всегда больше или равно 0?
Каковы другие характеристики успешного обучения (vf_explained_var, vf_loss, kl, ...)?