Как работает Double QN? - PullRequest
       108

Как работает Double QN?

0 голосов
/ 10 июля 2020

В чем заключается идея двойного QN?

Уравнение Беллмана, используемое для расчета значений Q для обновления онлайн-сети, следует уравнению:

value = reward + discount_factor * target_network.predict(next_state)[argmax(online_network.predict(next_state))]

Уравнение Беллмана, используемое для расчета Обновления значения Q в исходном DQN:

value = reward + discount_factor * max(target_network.predict(next_state))

, но целевая сеть для оценки действия обновляется с использованием весов online_network, а значение и передается в целевое значение в основном старое значение q из action.

есть идеи, как добавить другие сети на основе весов из первой сети?

...