Я делаю реализацию Q-обучения, в частности уравнения Беллмана.
Я использую версию с веб-сайта , которая направляетОн решает проблему, но у меня есть вопрос: для maxQ рассчитать ли максимальное вознаграждение, используя все значения Q-таблицы нового состояния (s ') - в моем случае 4 возможных действия (a'), каждое из которых имеет соответствующее значение- или сумма значений Q-таблицы всех позиций при выполнении действия (a ')?
Другими словами, использую ли я наибольшее значение Q из всех возможных действий, которые я могу предпринять,или суммированные Q-значения всех «соседних» квадратов?