Может ли кто-нибудь объяснить частично наблюдаемый марковский процесс принятия решений (POMDP) ​​примером? - PullRequest
1 голос
/ 12 февраля 2020

Чем он отличается от MDP в некоторых примерах?

1 Ответ

2 голосов
/ 12 февраля 2020

Если базовая динамика системы соответствует динамике процесса принятия решений Маркова, но агент не может наблюдать марковское состояние, настройка называется POMDP.

Наблюдаемое состояние называется марковским, если оно дано текущее наблюдаемое состояние и действие, можно было бы узнать следующее состояние.

Например, в игре в понг, если наблюдаемым состоянием для агента является только текущий кадр, было бы невозможно предсказывать направление, в котором мяч будет go следующим. Это будет POMDP. С другой стороны, если наблюдаемое состояние, скажем, последние 5 кадров, предсказание движения шара было бы возможным. Это MDP. Обратите внимание, что базовая динамика системы в обоих случаях - это динамика MDP, единственное, что меняется, - это то, что может наблюдать агент.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...