Как смоделировать UNO как POMDP - PullRequest
1 голос
/ 25 апреля 2019

Я пытаюсь смоделировать карточную игру UNO как частично наблюдаемые марковские процессы принятия решений (POMDP). Я провел небольшое исследование и пришел к выводу, что состояния будут количеством карт, действия будут либо разыгрывать, либо подбирать карту из невидимой колоды карт. Я сталкиваюсь с трудностями при формулировании переходного состояния и модели наблюдения. Я думаю, что модель наблюдения будет зависеть от прошлых действий и наблюдений (истории), но для этого мне нужно ослабить предположение Маркова. Я хочу знать, что расслабление Успения Маркова - лучший выбор или нет? Кроме того, как именно я должен сформировать модель состояния и наблюдения. Заранее спасибо.

1 Ответ

1 голос
/ 25 апреля 2019

Я думаю, что в POMDP состояния все равно должны быть «полной правдой» (положение всех карт), а переходы - это просто правила игры (включая стратегию других игроков ?!).Наблюдения, конечно же, не должны зависеть от какой-либо истории, только от государства, иначе вы нарушаете предположение Маркова.Суть POMDP заключается в том, что агент может получать информацию о текущем состоянии, анализируя историю.Я не совсем уверен, если или как это относится к ООН, хотя.Если вы знаете, какие карты были разыграны и их порядок, можете ли вы получить информацию, используя историю?Возможно нет.Не уверен, но, возможно, не имеет смысла думать об этой игре как о POMDP, даже если вы используете решение, разработанное для POMDP.

...