Question

Я относительно новичок в этой области, но не смог найти ничего похожего на эту проблему.

Проблема: агент может переходить из состояния s1 в состояние s2 разными способами (за один шаг) , Например, если состояния представляют местоположения, предположим, что агент может перейти от местоположения, представленного s1, к местоположению s2 за один шаг, выполнив одно из действий a1 или a2. Это означает, что несколько действий, предпринятых в каком-либо состоянии, приводят к одному и тому же состоянию.

Есть ли что-нибудь подобное в литературе?

Pablo EM · Answer 1 · 27 февраля 2020

Да, эта ситуация довольно стандартная и может управляться любым алгоритмом обучения подкреплению. Процессы принятия решений по Маркову (математическая основа, обычно используемая для моделирования среды в RL) не предполагают, что существует уникальное действие, которое может привести из одного состояния s1 в другое состояние s2.

Так что любая литература о RL также охватывает случай, который вы описываете.

Например, этот MDP из статьи Википедии для процесса принятия решений Марковым показывает случай, когда вы можете перейти из состояния s1 в состояние s2 двумя способами и один шаг:

Несколько действий, которые приводят к одному и тому же состоянию в процессе обучения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Несколько действий, которые приводят к одному и тому же состоянию в процессе обучения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы