Если базовая динамика системы соответствует динамике процесса принятия решений Маркова, но агент не может наблюдать марковское состояние, настройка называется POMDP.
Наблюдаемое состояние называется марковским, если оно дано текущее наблюдаемое состояние и действие, можно было бы узнать следующее состояние.
Например, в игре в понг, если наблюдаемым состоянием для агента является только текущий кадр, было бы невозможно предсказывать направление, в котором мяч будет go следующим. Это будет POMDP. С другой стороны, если наблюдаемое состояние, скажем, последние 5 кадров, предсказание движения шара было бы возможным. Это MDP. Обратите внимание, что базовая динамика системы в обоих случаях - это динамика MDP, единственное, что меняется, - это то, что может наблюдать агент.