Q-обучение ванили без модели.
Идея, лежащая в основе обучения с подкреплением, заключается в том, что агента обучают изучать оптимальную политику, основанную на парах состояний и вознаграждений, - это в отличие от попытки моделирования среды.
Если бы вы выбрали подход, основанный на модели, вы бы попытались смоделировать среду и в конечном итоге выполнить итерацию значений или итерацию политики процесса принятия решений Маркова.
В обучении с подкреплением предполагается, что у вас нет MDP, и, следовательно, вы должны попытаться найти оптимальную политику, основанную на различных вознаграждениях, которые вы получаете от своего опыта.
Для более подробного объяснения, проверьте этот пост .