Обратное распространение для двойного Q-Learning DQN - PullRequest
0 голосов
/ 17 июня 2020

После долгих исследований я все еще не могу найти точного ответа на этот вопрос:

Предположим, что «lo» - это наши потери для пары состояние-действие, рассчитанной с помощью уравнения Беллмана. Я не понимаю, какой из них правильный:

  1. Должен ли я возвращать одни и те же потери для каждого выхода Q (s, a) в моей сети?

  2. Должен ли я выполнять обратное распространение потерь ТОЛЬКО для указанного c выходного нейрона, из которого я выбрал действие? (А не обратного распространения остальных выходных нейронов. Это означает, что если мы выберем действие 3 из, например, 10 возможных действий, мы только обратное распространение от выходного нейрона 3).

  3. Должен ли я рассчитывать для каждого Q (sn, an) это Q * (sn, an) и каждый раз возвращать потерю этих 2? Насколько я понял, это неверно.

...