Усиление обучения: Actor-Criti c всегда лучше, чем метод градиента политики? - PullRequest
0 голосов
/ 10 февраля 2020

Я новичок в усиленном обучении, и я хочу попробовать написать свою собственную маленькую библиотеку, и мне стало интересно, есть ли какая-либо причина для внедрения градиентов политики.

СПАСИБО !!

1 Ответ

1 голос
/ 11 февраля 2020

Actor-criti c - это тип алгоритма градиента политики. Если вы не используете некоторую терминологию, отличную от той, к которой я привык.

В алгоритме градиента политики мы берем политику, параметризованную по некоторым параметрам, находим градиент политики на основе предпринятых действий и затем обновите параметры политики в направлении градиента.

Актер-критик c делает именно это.

В actor-criti c функция значения также рассчитывается и влияет на обновление. Но это все еще алгоритм градиента политики.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...