Как получается уравнение в «Стратегиях эволюции как масштабируемой альтернативе обучению усилению»? - PullRequest
0 голосов
/ 25 мая 2018

В статье OpenAI "Стратегии развития как масштабируемая альтернатива обучению в области подкрепления", как получается уравнение на странице 3?

1]

1 Ответ

0 голосов
/ 25 мая 2018

Это не «выведено», в том смысле, что это уравнение не было естественной прогрессией по сравнению с предыдущим уравнением, представленным в статье.

Эта формула демонстрирует, как авторы решили применить стохастическое градиентное восхождение.Это математическое представление алгоритма, который они использовали.

Прямо под этим уравнением они объясняют, как оно работает:

Результирующий алгоритм многократно выполняет две фазы: 1) Стохастическое возмущениепараметры политики и оценки результирующих параметров путем запуска эпизода в среде и 2) объединения результатов этих эпизодов, вычисления стохастической оценки градиента и обновления параметров.

Это может помочьперезапустить статью с самого начала и читать очень медленно и внимательно.Если вы столкнетесь с тем, что не имеет смысла, посмотрите его и не продолжайте читать статью, пока не поймете, что авторы пытаются вам сказать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...