Question

После долгих исследований я все еще не могу найти точного ответа на этот вопрос:

Предположим, что «lo» - это наши потери для пары состояние-действие, рассчитанной с помощью уравнения Беллмана. Я не понимаю, какой из них правильный:

Должен ли я возвращать одни и те же потери для каждого выхода Q (s, a) в моей сети?
Должен ли я выполнять обратное распространение потерь ТОЛЬКО для указанного c выходного нейрона, из которого я выбрал действие? (А не обратного распространения остальных выходных нейронов. Это означает, что если мы выберем действие 3 из, например, 10 возможных действий, мы только обратное распространение от выходного нейрона 3).
Должен ли я рассчитывать для каждого Q (sn, an) это Q * (sn, an) и каждый раз возвращать потерю этих 2? Насколько я понял, это неверно.

Обратное распространение для двойного Q-Learning DQN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Обратное распространение для двойного Q-Learning DQN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы