Связь между оптимальным уравнением Беллмана и Q-обучением - PullRequest
3 голосов
/ 02 февраля 2020

Оптимальное значение состояния-действия по оптимальному уравнению Беллмана (63 страницы Саттона 2018) составляет

Math expression

, а Q-learning -

Q-learning

Я знал, что Q-обучение не моделирует. поэтому ему не нужна вероятность перехода для следующего состояния.

Однако p (s'r | s, a) уравнения Беллмана - это вероятность перехода для следующего состояния s 'с наградой r, когда s, даны. так что я думаю, чтобы получить Q (s, a), ему нужна вероятность перехода.

Q уравнения Беллмана и Q q-learning отличается?

Если оно одинаковое, то как q-learning может работать без модели?

Есть ли способ получить Q (s, a) независимо от вероятности перехода на q-learning?

Или я что-то путаю

1 Ответ

2 голосов
/ 02 февраля 2020

Q-learning - это пример уравнения Беллмана, применяемого к функции значения состояния-действия. Это «безмодельное» в том смысле, что вам не нужна функция перехода, которая определяет, для данного решения, какое состояние является следующим.

Однако, есть несколько формулировок Q-Learning, которые отличаются в информации, которая известна. В частности, когда вы знаете функцию перехода, вы можете и должны использовать ее в своем уравнении Беллмана. Это приводит к уравнению, которое вы цитировали.

С другой стороны, если вы не знаете функцию перехода, Q-обучение также работает, но вы должны проверить влияние функции перехода с помощью моделирования.

...