Как стабилизировать производительность алгоритма обучения подкрепления? - PullRequest
0 голосов
/ 20 октября 2019

Я реализую алгоритм обучения подкрепления ( SAC ) для решения BipedalWalker-v2 и BipedalWalkerHardcore-v2 OpenAI. Я получаю стабильные результаты, которые достигают 300 наград в среднем за 100 эпизодов на BipedalWalker-v2. Но я получаю некоторые очень шумные результаты на последнем. На следующем рисунке показана оценка в каждом эпизоде ​​на BipedalWalkerHardcore-v2: enter image description here На следующем рисунке показана средняя оценка за 100 эпизодов. Как стабилизировать алгоритм?

...