Question

В статье OpenAI "Стратегии развития как масштабируемая альтернатива обучению в области подкрепления", как получается уравнение на странице 3?

R.F. Nelson · Answer 1 · 25 мая 2018

Это не «выведено», в том смысле, что это уравнение не было естественной прогрессией по сравнению с предыдущим уравнением, представленным в статье.

Эта формула демонстрирует, как авторы решили применить стохастическое градиентное восхождение.Это математическое представление алгоритма, который они использовали.

Прямо под этим уравнением они объясняют, как оно работает:

Результирующий алгоритм многократно выполняет две фазы: 1) Стохастическое возмущениепараметры политики и оценки результирующих параметров путем запуска эпизода в среде и 2) объединения результатов этих эпизодов, вычисления стохастической оценки градиента и обновления параметров.

Это может помочьперезапустить статью с самого начала и читать очень медленно и внимательно.Если вы столкнетесь с тем, что не имеет смысла, посмотрите его и не продолжайте читать статью, пока не поймете, что авторы пытаются вам сказать.

Как получается уравнение в «Стратегиях эволюции как масштабируемой альтернативе обучению усилению»?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как получается уравнение в «Стратегиях эволюции как масштабируемой альтернативе обучению усилению»?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы