У меня есть некоторые проблемы с выяснением того, почему вам нужно пересматривать все временные шаги из эпизода на каждом горизонте для онлайн-версии алгоритма λ-возврата из книги:
Reinforcement Learning: An Introduction, 2nd Edition, Chapter 12, Sutton & Barto

Здесь все последовательности весовых векторов W1, W2, ..., Wh для каждого горизонта h начинаются с W0 (веса с конца предыдущего эпизода).Однако они, похоже, не зависят от прибылей / весов предыдущего горизонта и могут быть рассчитаны независимо.Это кажется мне объясненным так только для пояснения, и вы можете рассчитать их только для конечного горизонта h = T в конце эпизода.Это будет то же самое, что сделано для автономной версии алгоритма, и действительное правило обновления:

Не удивительно, что я получаю точно такие же результаты для 2алгоритмы на примере Random Walk из 19 состояний:

В книге упоминается, что онлайновая версия должна работать немного лучше идля этого случая он должен иметь те же результаты, что и True Online TD (λ).При реализации последнего он действительно превосходит автономную версию, но я не могу понять это для простой и медленной онлайн-версии.
Любые предложения будут оценены.
Спасибо