Я пытаюсь смоделировать и запустить инструментарий Reinforcement Learning из Matlab 2019b.
Я обучил агента DDPG, используя стандартные процедуры, но в DDPGAgentOptions
есть это "NumstepsToLookAhead"
. Я немного озадачен тем, как можно смотреть вперед в обучении агентов DDPG
. Или это то же самое, что k-шаги для функции Advantage, используемой в Actor-criti c.
. Может ли кто-нибудь привести меня к своим ресурсам?
Любая помощь высоко ценится.