На шаге 2.4 действующего псевдоалгоритма Critis c здесь он сообщает, что веса крит c с погрешностью временной разности * значение состояния.
w ← w + αw δ ∇w Qw(s,a)
, где δ = r + γ Qw(s′,a′) − Qw(s,a)
Я немного сбит с толку, потому что вижу стоимостную функцию критика c как минимизацию прогнозируемого значения y из целевого значения y.
Если целевым значением y является текущее вознаграждение + дисконтированные будущие вознаграждения, то функция стоимости будет просто временной разницей.
Если бы мы принимали квадратную разницу как функцию стоимости, не будет ли производная по весам
2(r + γ Qw(s′,a′) − Qw(s,a)) * (d(Qw(s′,a′)/dw - d(Qw(s,a))/dw)
Почему в уравнении, указанном в ссылке, отсутствует термин d(Qw(s′,a′)/dw
?