Мне кажется, что вы правы, e
следует обновить до theta
.Это также должно произойти в соответствии с математикой в газете.См., Например, уравнения (7) и (8), где e_t
сначала вычисляется с использованием phi(s_t)
, и только THEN обновляется theta
с использованием delta V_t
(что в случае управления будет delta Q
).
Обратите внимание, что то, что вы написали о крайнем случае с lambda=0
, не совсем правильно.Пара начальных состояний и действий все еще будет участвовать в обновлении (не в первой итерации, но они будут включены в e
во время второй итерации).Однако мне кажется, что самая первая награда r
никогда не будет использоваться ни в каких обновлениях (поскольку она появляется только в самой первой итерации, где e
по-прежнему 0
).Поскольку эта статья о Go, я подозреваю, что это не будет иметь значения;если они не делают что-то необычное, они, вероятно, используют ненулевое вознаграждение только для состояния игры в терминале.