В этой ссылке агент движется стохастически: 70% в выбранном направлении и 10% в любом из 3 других направлений. Если он выходит из карты, он получает выигрыш -1 и остается в той же ячейке.
Теперь причина, я думаю, что-то не так, заключается в том, что если вы посмотрите в верхнем левом углу, в V1, мы можем выбрать право или вниз, скажем, мы выбираем вниз (скажем, коэффициент дисконтирования составляет 0,9):
V1 (S (0, 0)) = 0,7 * (0 + 0,9 * 0) + 0,1 * ( 0 + 0,9 * 0) + 0,1 * (-1 + 0,9 * 0) + 0,1 * (-1 + 0,9 * 0).
В правой части порядок терминов: спуск Идти направо, идти налево, идти вверх. Обратите внимание, что хотя агент выбирает go вниз, другие члены представляют стохастичность выхода. Имеет ли это какой-то смысл?
Другой вопрос, как работает V1 (S (1, 1)) 9,8? Разве это не должно быть сочетание соседних ячеек или я что-то упустил?
Спасибо!