Question

Что мы подразумеваем под 1 шагом / состоянием MDP (процесс принятия решения Маркова)?

Sanit · Answer 1 · 11 февраля 2020

Давайте рассмотрим n action 1 state MDP. Независимо от того, какое действие вы предпримете, вы останетесь в том же состоянии. Вы получите вознаграждение, которое зависит только от того, что вы предприняли. Если вы хотите sh, чтобы максимизировать долгосрочное вознаграждение в этой ситуации, вам нужно просто решить, какой из n доступных вариантов (действий) является лучшим.

Именно в этом и заключается проблема бандитов.

Mochan · Answer 2 · 11 февраля 2020

В бандите прошлые рычаги не влияют на то, что рычаг будет выводить или вознаграждение.

Награда зависит только от того, какой рычаг тянут, и ничего в прошлом.

Таким образом, существует только одно состояние.

Почему проблема бандитов также называется MDP с одним шагом / состоянием в обучении подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему проблема бандитов также называется MDP с одним шагом / состоянием в обучении подкреплению?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы