Критерии соответствия: On-line против Off-line λ-return алгоритма - PullRequest
1 голос
/ 05 марта 2019

У меня есть некоторые проблемы с выяснением того, почему вам нужно пересматривать все временные шаги из эпизода на каждом горизонте для онлайн-версии алгоритма λ-возврата из книги:
Reinforcement Learning: An Introduction, 2nd Edition, Chapter 12, Sutton & Barto

Horizon step-by-step expansion

Здесь все последовательности весовых векторов W1, W2, ..., Wh для каждого горизонта h начинаются с W0 (веса с конца предыдущего эпизода).Однако они, похоже, не зависят от прибылей / весов предыдущего горизонта и могут быть рассчитаны независимо.Это кажется мне объясненным так только для пояснения, и вы можете рассчитать их только для конечного горизонта h = T в конце эпизода.Это будет то же самое, что сделано для автономной версии алгоритма, и действительное правило обновления:

General weight-vector update formula

Не удивительно, что я получаю точно такие же результаты для 2алгоритмы на примере Random Walk из 19 состояний:

On-line VS Off-line graph chart

В книге упоминается, что онлайновая версия должна работать немного лучше идля этого случая он должен иметь те же результаты, что и True Online TD (λ).При реализации последнего он действительно превосходит автономную версию, но я не могу понять это для простой и медленной онлайн-версии.

Любые предложения будут оценены.

Спасибо

1 Ответ

1 голос
/ 07 марта 2019

Мне кажется, что это объясняется только для пояснения, и вы можете рассчитать их только для конечного горизонта h = T в конце эпизода.

Это не правда. Весь смысл онлайн-алгоритма λ-возврата в том, что он онлайн: он делает обновления в течение эпизода. Это имеет решающее значение в настройке элемента управления, когда выбранные действия определяются оценками текущего значения. Даже в настройках прогноза эффект веса, сделанный для более ранних горизонтов, оказывает влияние.

Это связано с тем, что конечный весовой вектор с последнего горизонта всегда используется при расчете цели обновления - усеченного лямбда-возврата. Таким образом, w_1 ^ 1 используется для вычисления всех целей для h = 2, а w_2 ^ 2 используется для вычисления всех целей для h = 3. Поскольку цели рассчитываются с использованием последних весовых векторов, они, как правило, более точные.

Даже в режиме прогнозирования алгоритм онлайн-возврата лямбды превосходит автономную версию, потому что цели, которые он использует, лучше.

...