Итак, я читал газету софт-критики https://arxiv.org/pdf/1801.01290.pdf
Актер использует стохастическую политику, которая выбирает из распределения.Нейронная сеть используется для аппроксимации политики.Вместо того, чтобы действительно «пробовать» действие, авторы расширяют вход сети до состояния плюс вектор шума.
at = fφ(x; st)
, где x - вектор шума, скажем, [x1, x2]
Тогда вероятность πφ(at|s) is p(x1)*p(x2)
, я думаю.
Что означает, что энтропия log πφ(at|s)
не имеет отношения к параметру φ или
Таким образом, градиент политики, предложенный в статье
∇φJπ(φ) = ∇φ log πφ(at|st)
+ (∇at log πφ(at|st) − ∇at Q(st, at)) * ∇φ fφ(x; st)
можно упростить до
∇φJπ(φ) = −∇at Q(st, at) * ∇φ fφ(x; st)
, что идентично DDPG.
Так где я допустил ошибку?Кто-нибудь мне поможет?