Понимание тензорных участков для ППО в RLLIB - PullRequest
0 голосов
/ 13 марта 2020

Я новичок в Deep RL и хотел бы тренировать свою собственную гимнастическую среду в RLLIB с помощью алгоритма PPO. Тем не менее, я испытываю некоторые трудности с проверкой успешности моих настроек гиперпараметра. Помимо очевидного episode_reward_mean metri c, который должен подняться, у нас есть много других графиков.

Меня особенно интересует, как энтропия должна развиваться во время успешного обучения. В моем случае это выглядит так:

entropy.jpg

Обычно оно падает ниже 0 и затем сходится. Я понимаю, что энтропия как часть функции потерь стимулирует исследование и может ускорить процесс обучения. Но почему это становится отрицательным? Разве оно не должно быть всегда больше или равно 0?

Каковы другие характеристики успешного обучения (vf_explained_var, vf_loss, kl, ...)?

...