В градиенте политики функция вознаграждения рассматривается как независимая переменная для тета, как можно видеть в следующей формуле. введите описание изображения здесь
Однако я думаю, что вознаграждение зависит от траектории, а сама траектория зависит от политики, которая сама зависит от тета. Другими словами, я думаю, что вознаграждение = R (P ( theta)) где P - это функция политики, а R - желаемая функция вознаграждения, поэтому следует применять цепное правило, чтобы получить градиент над J (theta).
, пожалуйста, покажите мне, какие из моих предпосылок неверны.
Спасибо