Итерация значения и итерация политики - основанные на модели методы поиска оптимальной политики. Они пытаются построить марковский процесс принятия решений (MDP) из среды. Основная предпосылка обучения с подкреплением состоит в том, что вам не нужно MDP среды для поиска оптимальной политики, и традиционно итерация значения и итерация политики не считаются RL (хотя их понимание является ключом к концепциям RL). Итерации значений и итерации политики изучаются «косвенно», поскольку они образуют модель среды и могут затем извлечь оптимальную политику из этой модели.
«Прямые» методы обучения не пытаются построить модель среды. Они могут искать оптимальную политику в пространстве политик или использовать методы обучения, основанные на ценностных функциях (например, «на основе ценностей»). Большинство подходов, о которых вы узнаете в эти дни, как правило, основаны на значениях функций.
В рамках методов, основанных на значениях функций, существует два основных типа методов обучения с подкреплением:
- Методы, основанные на итерациях политики
- Значение итерационных методов
Ваша домашняя работа спрашивает вас, для каждого из этих методов RL, основаны ли они на итерации политики или итерации значения.
Подсказка: один из этих пяти методов RL не похож на другие.