Я пишу простой пример q-обучения и для обновления q-значений вам нужен maxQ '.
Я не уверен, относится ли maxQ к сумме всех возможных наград или максимально возможной награды:
Это максимум Q-values среди всех возможных действий для государства s'.По сути, вам нужно взять max над всеми Q(s',a') за все действительные действия a' в состоянии s'.
Q-values
s'
max
Q(s',a')
a'