Question

В настоящее время я думаю о создании TD (λ) для сети DQN.Я знаю, как реализовать, если это таблица (вы обновляете Q (s, a) и e (s, a) для всех пар состояний и действий), но что происходит, когда значение Q теперь извлекается из аппроксиматора функции (нейронная сеть)?Как бы я обновил для всех состояний, а также сделал бы приращения и затухание для следов правомочности?

Я нашел 2 статьи, которые могут быть связаны, но они на самом деле не объясняют, как реализовать, а скорее показываюттолько результаты. PDF Link 1 PDF Link 2

Усиленное обучение с функцией приближения и отслеживания соответствия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Усиленное обучение с функцией приближения и отслеживания соответствия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы