Алгоритмы градиента политики не содержат моделей.
В алгоритмах на основе моделей агент имеет доступ к функции перехода среды или изучает ее, F (состояние, действие) = вознаграждение, next_state. Функция перехода здесь может быть либо детерминированной c, либо стохастической c.
Другими словами, в алгоритмах на основе моделей агент предсказывает, что произойдет с окружающей средой, если будет предпринято конкретное действие (например, в этом документе: Обучение на основе моделирования для Atari ). В качестве альтернативы, агент имеет доступ к функции перехода в соответствии с рамкой задачи (например, в Alpha Go агент имеет доступ к функции перехода на плате Go).
In алгоритмы градиента политики, агент имеет сеть политик для прогнозирования действий, которые необходимо предпринять, и сеть ценностей для прогнозирования значения текущего состояния. Ни одна из этих сетей не предсказывает переходную функцию среды. Поэтому он считается безмодельным.
Вы также можете найти диаграмму таксономии OpenAI Spinning Up полезной.