Оптимальное значение состояния-действия по оптимальному уравнению Беллмана (63 страницы Саттона 2018) составляет
, а Q-learning -
Я знал, что Q-обучение не моделирует. поэтому ему не нужна вероятность перехода для следующего состояния.
Однако p (s'r | s, a) уравнения Беллмана - это вероятность перехода для следующего состояния s 'с наградой r, когда s, даны. так что я думаю, чтобы получить Q (s, a), ему нужна вероятность перехода.
Q уравнения Беллмана и Q q-learning отличается?
Если оно одинаковое, то как q-learning может работать без модели?
Есть ли способ получить Q (s, a) независимо от вероятности перехода на q-learning?
Или я что-то путаю