Как это называется, когда действие не влияет на состояние в обучении подкреплению? - PullRequest
0 голосов
/ 19 мая 2018

В обучении с подкреплением есть ли название для алгоритмов, в которых предпринятые действия не влияют на состояние?например, вооруженный бандит

1 Ответ

0 голосов
/ 19 мая 2018

В настройке RL вооруженные бандиты считаются лицами без гражданства, поэтому, естественно, действия не влияют на состояние.Есть только действия и награды.

Если вы добавляете состояние, но действия не влияют на то, каким будет следующее состояние, они называются Контекстуальные бандиты .У контекстных бандитов есть состояния, действия и награды.Ваше состояние (или «контекст») может повлиять на ваше действие, но не наоборот, т. Е. Нет правил перехода, как в обычном RL.

...