После долгих исследований я все еще не могу найти точного ответа на этот вопрос:
Предположим, что «lo» - это наши потери для пары состояние-действие, рассчитанной с помощью уравнения Беллмана. Я не понимаю, какой из них правильный:
Должен ли я возвращать одни и те же потери для каждого выхода Q (s, a) в моей сети?
Должен ли я выполнять обратное распространение потерь ТОЛЬКО для указанного c выходного нейрона, из которого я выбрал действие? (А не обратного распространения остальных выходных нейронов. Это означает, что если мы выберем действие 3 из, например, 10 возможных действий, мы только обратное распространение от выходного нейрона 3).
Должен ли я рассчитывать для каждого Q (sn, an) это Q * (sn, an) и каждый раз возвращать потерю этих 2? Насколько я понял, это неверно.