В чем заключается идея двойного QN?
Уравнение Беллмана, используемое для расчета значений Q для обновления онлайн-сети, следует уравнению:
value = reward + discount_factor * target_network.predict(next_state)[argmax(online_network.predict(next_state))]
Уравнение Беллмана, используемое для расчета Обновления значения Q в исходном DQN:
value = reward + discount_factor * max(target_network.predict(next_state))
, но целевая сеть для оценки действия обновляется с использованием весов online_network, а значение и передается в целевое значение в основном старое значение q из action.
есть идеи, как добавить другие сети на основе весов из первой сети?