Question

В чем заключается идея двойного QN?

Уравнение Беллмана, используемое для расчета значений Q для обновления онлайн-сети, следует уравнению:

value = reward + discount_factor * target_network.predict(next_state)[argmax(online_network.predict(next_state))]

Уравнение Беллмана, используемое для расчета Обновления значения Q в исходном DQN:

value = reward + discount_factor * max(target_network.predict(next_state))

, но целевая сеть для оценки действия обновляется с использованием весов online_network, а значение и передается в целевое значение в основном старое значение q из action.

есть идеи, как добавить другие сети на основе весов из первой сети?

Как работает Double QN?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как работает Double QN?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы