Насколько я понимаю, я знаю два основных из них.
1) В обучении с подкреплением используется концепция одного агента, и агент учится, взаимодействуя с окружающей средой различными способами.В эволюционных алгоритмах они обычно начинаются со многих «агентов», и выживают только «сильные» (агенты с характеристиками, дающими наименьшие потери).
2) Агент обучения подкрепления (s) изучает как положительные, так и отрицательные действия, но эволюционные алгоритмы изучают только оптимальное, а отрицательное или субоптимальное решение информация отбрасывается и теряется.
Пример
Вы хотите построить алгоритм для регулирования температуры в помещении.
В комнате 15 °С, и вы хотите, чтобы она была 23 ° С.
Используя обучение с подкреплением, агент попытается выполнить несколько различных действий для увеличения и уменьшения температуры.В конце концов он узнает, что повышение температуры дает хорошую награду.Но он также узнает, что снижение температуры даст плохую награду.
Для эволюционных алгоритмов он запускается с кучей случайных агентов, у всех из которых есть заранее запрограммированный набор действий, которые он собирается выполнить.Тогда агенты с действием «повышение температуры» выживают и переходят к следующему поколению.В конце концов, выживают только те агенты, которые повышают температуру и считаются лучшим решением.Однако алгоритм не знает, что произойдет, если вы снизите температуру.
TL; DR: RL - это обычно один агент, пытающийся выполнять различные действия, а также изучающий и запоминающий всю информацию (положительную илиотрицательный).EM использует много агентов, которые угадывают много действий, выживают только агенты, которые имеют оптимальные действия.По сути, это грубый способ решения проблемы.