Оптимальное значение состояния-действия по оптимальному уравнению Беллмана (63 страницы Саттона 2018) составляет
![Math expression](https://latex.codecogs.com/gif.latex?%24%24Q%28s%2Ca%29%20%3D%20%5Csum_%7Bs%27%2C%20r%7Dp%28s%27%2C%20r%7Cs%2Ca%29%28r%20+%20%5Cgamma%20%5Cmax_a%20Q%28s%27%2Ca%27%29%24%24)
, а Q-learning -
Я знал, что Q-обучение не моделирует. поэтому ему не нужна вероятность перехода для следующего состояния.
Однако p (s'r | s, a) уравнения Беллмана - это вероятность перехода для следующего состояния s 'с наградой r, когда s, даны. так что я думаю, чтобы получить Q (s, a), ему нужна вероятность перехода.
Q уравнения Беллмана и Q q-learning отличается?
Если оно одинаковое, то как q-learning может работать без модели?
Есть ли способ получить Q (s, a) независимо от вероятности перехода на q-learning?
Или я что-то путаю