Я прочитал несколько материалов о глубоком q-learning, и я не уверен, полностью ли я их понимаю.Из того, что я узнал, кажется, что глубокое Q-обучение быстрее вычисляет значения Q, чем помещает их в таблицу, используя NN для выполнения регрессии, вычисления потерь и обратного распространения ошибки для обновления весов.Затем в сценарии тестирования он принимает состояние, и NN возвращает несколько значений Q для каждого действия, возможного для этого состояния.Затем будет выбрано действие с наибольшим значением Q для этого состояния.
Мой единственный вопрос - как обновляются веса.Согласно этому сайту веса обновляются следующим образом:
![enter image description here](https://i.stack.imgur.com/NTRDL.png)
Я понимаю, что веса инициализируются случайным образом, возвращается Rв зависимости от среды гамма и альфа устанавливаются вручную, но я не понимаю, как Q (s ', a, w) и Q (s, a, w) инициализируются и вычисляются.Кажется ли нам, что мы должны построить таблицу Q-значений и обновить их, как в случае Q-обучения, или они рассчитываются автоматически в каждую эпоху обучения NN?чего я тут не понимаю?может кто-нибудь объяснить мне лучше такое уравнение?