Как алгоритм софт-актер-критик справляется с градиентом политики? - PullRequest
0 голосов
/ 20 декабря 2018

Итак, я читал газету софт-критики https://arxiv.org/pdf/1801.01290.pdf

Актер использует стохастическую политику, которая выбирает из распределения.Нейронная сеть используется для аппроксимации политики.Вместо того, чтобы действительно «пробовать» действие, авторы расширяют вход сети до состояния плюс вектор шума.

at = fφ(x; st)

, где x - вектор шума, скажем, [x1, x2]

Тогда вероятность πφ(at|s) is p(x1)*p(x2), я думаю.

Что означает, что энтропия log πφ(at|s) не имеет отношения к параметру φ или

Таким образом, градиент политики, предложенный в статье

∇φJπ(φ) = ∇φ log πφ(at|st)
+ (∇at log πφ(at|st) − ∇at Q(st, at)) * ∇φ fφ(x; st)

можно упростить до

∇φJπ(φ) = −∇at Q(st, at) * ∇φ fφ(x; st)

, что идентично DDPG.
Так где я допустил ошибку?Кто-нибудь мне поможет?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...