Question

Чем он отличается от MDP в некоторых примерах?

Sanit · Answer 1 · 12 февраля 2020

Если базовая динамика системы соответствует динамике процесса принятия решений Маркова, но агент не может наблюдать марковское состояние, настройка называется POMDP.

Наблюдаемое состояние называется марковским, если оно дано текущее наблюдаемое состояние и действие, можно было бы узнать следующее состояние.

Например, в игре в понг, если наблюдаемым состоянием для агента является только текущий кадр, было бы невозможно предсказывать направление, в котором мяч будет go следующим. Это будет POMDP. С другой стороны, если наблюдаемое состояние, скажем, последние 5 кадров, предсказание движения шара было бы возможным. Это MDP. Обратите внимание, что базовая динамика системы в обоих случаях - это динамика MDP, единственное, что меняется, - это то, что может наблюдать агент.

Может ли кто-нибудь объяснить частично наблюдаемый марковский процесс принятия решений (POMDP) примером?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Может ли кто-нибудь объяснить частично наблюдаемый марковский процесс принятия решений (POMDP) ​​примером?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы

Может ли кто-нибудь объяснить частично наблюдаемый марковский процесс принятия решений (POMDP) примером?