Это не «выведено», в том смысле, что это уравнение не было естественной прогрессией по сравнению с предыдущим уравнением, представленным в статье.
Эта формула демонстрирует, как авторы решили применить стохастическое градиентное восхождение.Это математическое представление алгоритма, который они использовали.
Прямо под этим уравнением они объясняют, как оно работает:
Результирующий алгоритм многократно выполняет две фазы: 1) Стохастическое возмущениепараметры политики и оценки результирующих параметров путем запуска эпизода в среде и 2) объединения результатов этих эпизодов, вычисления стохастической оценки градиента и обновления параметров.
Это может помочьперезапустить статью с самого начала и читать очень медленно и внимательно.Если вы столкнетесь с тем, что не имеет смысла, посмотрите его и не продолжайте читать статью, пока не поймете, что авторы пытаются вам сказать.