Марковский процесс принятия решений Абсолютное выяснение того, какие штаты обладают марковским свойством - PullRequest
1 голос
/ 24 мая 2019

Я, кажется, постоянно сталкиваюсь с контрпримерами в разных текстах относительно того, какие состояния имеют свойство Маркова.

Кажется, что в некоторых презентациях предполагается, что MDP - это то, в котором текущее состояние / наблюдение передает абсолютно всю необходимую информацию об окружающей среде для принятия оптимального решения.

В других презентациях указывается только то, что текущее состояние / наблюдение содержат все необходимые детали из предыдущих наблюдаемых состояний для принятия оптимального решения (например, см .: http://www.incompleteideas.net/book/ebook/node32.html).

Разница между этими двумя определениями огромна, поскольку некоторые люди, похоже, утверждают, что в карточных играх, таких как покер, отсутствует свойство Маркова, поскольку мы не можем знать карты, которые держит наш противник, и эта неполная информация, таким образом, делает недействительным свойство Маркова.

Другое определение из моего понимания, по-видимому, предполагает, что карточные игры со скрытым состоянием (например, скрытые карты) на самом деле являются марковскими, если агент принимает свои решения так, как если бы он имел доступ к всем своим собственные предварительные наблюдения.

Так к чему относится свойство Маркова? Означает ли это наличие полной информации об окружающей среде для принятия оптимального решения, или скорее она принимает неполную информацию, а скорее просто ссылается на текущее состояние / наблюдение агента, просто основываясь на оптимальном решении, как если бы это состояние имело доступ к все предыдущие состояния агента? Т.е. в примере покера, пока текущее состояние дает нам всю информацию, которую мы наблюдали раньше, даже если бы было много скрытых переменных, будет ли это теперь удовлетворять свойству Маркова?

...