Question

На шаге 2.4 действующего псевдоалгоритма Critis c здесь он сообщает, что веса крит c с погрешностью временной разности * значение состояния.

w ← w + αw δ ∇w Qw(s,a)

, где δ = r + γ Qw(s′,a′) − Qw(s,a)

Я немного сбит с толку, потому что вижу стоимостную функцию критика c как минимизацию прогнозируемого значения y из целевого значения y.

Если целевым значением y является текущее вознаграждение + дисконтированные будущие вознаграждения, то функция стоимости будет просто временной разницей.

Если бы мы принимали квадратную разницу как функцию стоимости, не будет ли производная по весам

2(r + γ Qw(s′,a′) − Qw(s,a)) * (d(Qw(s′,a′)/dw - d(Qw(s,a))/dw)

Почему в уравнении, указанном в ссылке, отсутствует термин d(Qw(s′,a′)/dw?

Как рассчитать градиентный спуск критической c в модели актер-критической c

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как рассчитать градиентный спуск критической c в модели актер-критической c

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы