Усиленное обучение с функцией приближения и отслеживания соответствия - PullRequest
0 голосов
/ 12 июня 2018

В настоящее время я думаю о создании TD (λ) для сети DQN.Я знаю, как реализовать, если это таблица (вы обновляете Q (s, a) и e (s, a) для всех пар состояний и действий), но что происходит, когда значение Q теперь извлекается из аппроксиматора функции (нейронная сеть)?Как бы я обновил для всех состояний, а также сделал бы приращения и затухание для следов правомочности?

Я нашел 2 статьи, которые могут быть связаны, но они на самом деле не объясняют, как реализовать, а скорее показываюттолько результаты. PDF Link 1 PDF Link 2

...