Является ли MaxQ суммой всех возможных наград или самой высокой наградой? - PullRequest
0 голосов
/ 01 июля 2019

Я пишу простой пример q-обучения и для обновления q-значений вам нужен maxQ '.

Я не уверен, относится ли maxQ к сумме всех возможных наград или максимально возможной награды:

enter image description here

1 Ответ

2 голосов
/ 02 июля 2019

Это максимум Q-values среди всех возможных действий для государства s'.По сути, вам нужно взять max над всеми Q(s',a') за все действительные действия a' в состоянии s'.

...