Разница между эволюционными стратегиями и усиленным обучением? - PullRequest
0 голосов
/ 14 ноября 2018

Я узнаю о подходе, применяемом в обучении армированию для робототехники, и натолкнулся на концепцию эволюционных стратегий.Но я не мог понять, чем отличаются RL и ES.Кто-нибудь может объяснить, пожалуйста?

Ответы [ 2 ]

0 голосов
/ 18 ноября 2018

Я думаю, что самая большая разница между эволюционными стратегиями и обучением в области подкрепления состоит в том, что ES - это метод глобальной оптимизации, а RL - метод локальной оптимизации.Таким образом, RL может сходиться к локальному оптимуму, сходящемуся быстрее, в то время как ES сходится медленнее к глобальным минимумам.

0 голосов
/ 17 ноября 2018

Насколько я понимаю, я знаю два основных из них.

1) В обучении с подкреплением используется концепция одного агента, и агент учится, взаимодействуя с окружающей средой различными способами.В эволюционных алгоритмах они обычно начинаются со многих «агентов», и выживают только «сильные» (агенты с характеристиками, дающими наименьшие потери).

2) Агент обучения подкрепления (s) изучает как положительные, так и отрицательные действия, но эволюционные алгоритмы изучают только оптимальное, а отрицательное или субоптимальное решение информация отбрасывается и теряется.

Пример

Вы хотите построить алгоритм для регулирования температуры в помещении.

В комнате 15 °С, и вы хотите, чтобы она была 23 ° С.

Используя обучение с подкреплением, агент попытается выполнить несколько различных действий для увеличения и уменьшения температуры.В конце концов он узнает, что повышение температуры дает хорошую награду.Но он также узнает, что снижение температуры даст плохую награду.

Для эволюционных алгоритмов он запускается с кучей случайных агентов, у всех из которых есть заранее запрограммированный набор действий, которые он собирается выполнить.Тогда агенты с действием «повышение температуры» выживают и переходят к следующему поколению.В конце концов, выживают только те агенты, которые повышают температуру и считаются лучшим решением.Однако алгоритм не знает, что произойдет, если вы снизите температуру.

TL; DR: RL - это обычно один агент, пытающийся выполнять различные действия, а также изучающий и запоминающий всю информацию (положительную илиотрицательный).EM использует много агентов, которые угадывают много действий, выживают только агенты, которые имеют оптимальные действия.По сути, это грубый способ решения проблемы.

...