Простой марковский процесс расчета вероятностей - PullRequest
0 голосов
/ 07 декабря 2018

enter image description here

На рисунке показан мир стохастической сетки 4x3.Агенту доступны четыре действия: север, юг, запад, восток.Для каждого действия агент идет вперед с вероятностью 0,8, идет влево и вправо с вероятностью 0,1 соответственно.В состояниях (4,2) и (4,3) единственное действие - выход, дающий награду -1 и +1.При выходе из состояния S агент получает вознаграждение R (S), которое может быть отрицательным или положительным.В этом параметре ответьте на следующие вопросы.

  1. Вычислите, какие состояния могут быть достигнуты из (1,1) последовательностью действий [Север, Север, Восток] и с какими вероятностями.

  2. Предположим, что для всех S, R (S) = +2, какова оптимальная политика?

Итак, мой учитель дал нам эти упражнения ирешения: для первого вопроса enter image description here для второго вопроса enter image description here

но я понятия не имею, как он рассчитал значения для вопроса, можетКто-нибудь объяснит процесс расчета?

...