Question

Я делаю реализацию Q-обучения, в частности уравнения Беллмана.

Я использую версию с веб-сайта , которая направляетОн решает проблему, но у меня есть вопрос: для maxQ рассчитать ли максимальное вознаграждение, используя все значения Q-таблицы нового состояния (s ') - в моем случае 4 возможных действия (a'), каждое из которых имеет соответствующее значение- или сумма значений Q-таблицы всех позиций при выполнении действия (a ')?

Другими словами, использую ли я наибольшее значение Q из всех возможных действий, которые я могу предпринять,или суммированные Q-значения всех «соседних» квадратов?

Nikola Zubic · Answer 1 · 20 октября 2019

Вы всегда используете максимальное значение Q для всех возможных действий, которые вы можете предпринять.

Идея состоит в том, чтобы выбрать действие с наибольшим (лучшим) значением Q следующего состояния, чтобы оставаться в оптимальной политикеQpi *.

Как рассчитать MaxQ в Q-learning?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как рассчитать MaxQ в Q-learning?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы