Я реализую алгоритм обучения подкрепления ( SAC ) для решения BipedalWalker-v2 и BipedalWalkerHardcore-v2 OpenAI. Я получаю стабильные результаты, которые достигают 300 наград в среднем за 100 эпизодов на BipedalWalker-v2. Но я получаю некоторые очень шумные результаты на последнем. На следующем рисунке показана оценка в каждом эпизоде на BipedalWalkerHardcore-v2: На следующем рисунке показана средняя оценка за 100 эпизодов. Как стабилизировать алгоритм?