Почему проблема бандитов также называется MDP с одним шагом / состоянием в обучении подкреплению? - PullRequest
1 голос
/ 11 февраля 2020

Что мы подразумеваем под 1 шагом / состоянием MDP (процесс принятия решения Маркова)?

Ответы [ 2 ]

2 голосов
/ 11 февраля 2020

Давайте рассмотрим n action 1 state MDP. Независимо от того, какое действие вы предпримете, вы останетесь в том же состоянии. Вы получите вознаграждение, которое зависит только от того, что вы предприняли. Если вы хотите sh, чтобы максимизировать долгосрочное вознаграждение в этой ситуации, вам нужно просто решить, какой из n доступных вариантов (действий) является лучшим.

Именно в этом и заключается проблема бандитов.

1 голос
/ 11 февраля 2020

В бандите прошлые рычаги не влияют на то, что рычаг будет выводить или вознаграждение.

Награда зависит только от того, какой рычаг тянут, и ничего в прошлом.

Таким образом, существует только одно состояние.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...