Подходит ли алгоритм градиента политики под модельным или основанным на модели методам в обучении подкреплению? - PullRequest
0 голосов
/ 14 февраля 2020

Алгоритмы обучения усилению, которые явно изучают модели системы и используют их для решения проблем MDP, являются основанными на моделях методами. RL на основе моделей оказывает сильное влияние из теории управления и часто объясняется с точки зрения различных дисциплин. Эти методы включают популярные алгоритмы, такие как Dyna [Sutton 1991], Q-iteration [Busoniu et al. 2010], Policy Gradient (PG) [Williams 1992] et c.

Методы без модели игнорируют модель и просто сосредотачиваются на выяснении функций-значений непосредственно из взаимодействия с окружающей средой. Чтобы достичь этого, методы сильно зависят от отбора проб и наблюдения; поэтому им не нужно знать внутреннюю работу системы. Некоторыми примерами этих методов являются Q-learning [Krose 1995], SARSA [Rummery and Niranjan 1994] и Actor-Criti c [Konda and Tsitsiklis 1999].

В других местах написано градиент политики свободен от модели. Его сбивает с толку, может кто-то очистить его как актерский критик c также является частью алгоритмов градиента политики?

1 Ответ

1 голос
/ 18 февраля 2020

Алгоритмы градиента политики не содержат моделей.

В алгоритмах на основе моделей агент имеет доступ к функции перехода среды или изучает ее, F (состояние, действие) = вознаграждение, next_state. Функция перехода здесь может быть либо детерминированной c, либо стохастической c.

Другими словами, в алгоритмах на основе моделей агент предсказывает, что произойдет с окружающей средой, если будет предпринято конкретное действие (например, в этом документе: Обучение на основе моделирования для Atari ). В качестве альтернативы, агент имеет доступ к функции перехода в соответствии с рамкой задачи (например, в Alpha Go агент имеет доступ к функции перехода на плате Go).

In алгоритмы градиента политики, агент имеет сеть политик для прогнозирования действий, которые необходимо предпринять, и сеть ценностей для прогнозирования значения текущего состояния. Ни одна из этих сетей не предсказывает переходную функцию среды. Поэтому он считается безмодельным.

Вы также можете найти диаграмму таксономии OpenAI Spinning Up полезной.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...