Пример итерации значения может быть неправильным? - PullRequest
0 голосов
/ 29 марта 2020

В этой ссылке агент движется стохастически: 70% в выбранном направлении и 10% в любом из 3 других направлений. Если он выходит из карты, он получает выигрыш -1 и остается в той же ячейке.

Теперь причина, я думаю, что-то не так, заключается в том, что если вы посмотрите в верхнем левом углу, в V1, мы можем выбрать право или вниз, скажем, мы выбираем вниз (скажем, коэффициент дисконтирования составляет 0,9):

V1 (S (0, 0)) = 0,7 * (0 + 0,9 * 0) + 0,1 * ( 0 + 0,9 * 0) + 0,1 * (-1 + 0,9 * 0) + 0,1 * (-1 + 0,9 * 0).

В правой части порядок терминов: спуск Идти направо, идти налево, идти вверх. Обратите внимание, что хотя агент выбирает go вниз, другие члены представляют стохастичность выхода. Имеет ли это какой-то смысл?

Другой вопрос, как работает V1 (S (1, 1)) 9,8? Разве это не должно быть сочетание соседних ячеек или я что-то упустил?

Спасибо!

1 Ответ

0 голосов
/ 02 апреля 2020

С Reddit , показанная сетка 3x3 является лишь меньшей частью более крупной сетки, отображаемой в примере 9.26 : Таким образом, верхний левый угол в сетке 3x3 на самом деле не в окружении стен. Пример 9.26 также объясняет, что происходит, когда агент достигает плитки +10.

...