Как рассчитать MaxQ в Q-learning? - PullRequest
2 голосов
/ 20 октября 2019

Я делаю реализацию Q-обучения, в частности уравнения Беллмана. Bellman equation

Я использую версию с веб-сайта , которая направляетОн решает проблему, но у меня есть вопрос: для maxQ рассчитать ли максимальное вознаграждение, используя все значения Q-таблицы нового состояния (s ') - в моем случае 4 возможных действия (a'), каждое из которых имеет соответствующее значение- или сумма значений Q-таблицы всех позиций при выполнении действия (a ')?

Другими словами, использую ли я наибольшее значение Q из всех возможных действий, которые я могу предпринять,или суммированные Q-значения всех «соседних» квадратов?

1 Ответ

1 голос
/ 20 октября 2019

Вы всегда используете максимальное значение Q для всех возможных действий, которые вы можете предпринять.

Идея состоит в том, чтобы выбрать действие с наибольшим (лучшим) значением Q следующего состояния, чтобы оставаться в оптимальной политикеQpi *.

...