Давайте рассмотрим n action 1 state MDP. Независимо от того, какое действие вы предпримете, вы останетесь в том же состоянии. Вы получите вознаграждение, которое зависит только от того, что вы предприняли. Если вы хотите sh, чтобы максимизировать долгосрочное вознаграждение в этой ситуации, вам нужно просто решить, какой из n доступных вариантов (действий) является лучшим.
Именно в этом и заключается проблема бандитов.