Question

В градиенте политики функция вознаграждения рассматривается как независимая переменная для тета, как можно видеть в следующей формуле. введите описание изображения здесь

Однако я думаю, что вознаграждение зависит от траектории, а сама траектория зависит от политики, которая сама зависит от тета. Другими словами, я думаю, что вознаграждение = R (P ( theta)) где P - это функция политики, а R - желаемая функция вознаграждения, поэтому следует применять цепное правило, чтобы получить градиент над J (theta).
, пожалуйста, покажите мне, какие из моих предпосылок неверны.
Спасибо

градиент политики не применяется за вознаграждение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

градиент политики не применяется за вознаграждение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы