Несколько действий, которые приводят к одному и тому же состоянию в процессе обучения - PullRequest
1 голос
/ 26 февраля 2020

Я относительно новичок в этой области, но не смог найти ничего похожего на эту проблему.

Проблема: агент может переходить из состояния s1 в состояние s2 разными способами (за один шаг) , Например, если состояния представляют местоположения, предположим, что агент может перейти от местоположения, представленного s1, к местоположению s2 за один шаг, выполнив одно из действий a1 или a2. Это означает, что несколько действий, предпринятых в каком-либо состоянии, приводят к одному и тому же состоянию.

Есть ли что-нибудь подобное в литературе?

1 Ответ

1 голос
/ 27 февраля 2020

Да, эта ситуация довольно стандартная и может управляться любым алгоритмом обучения подкреплению. Процессы принятия решений по Маркову (математическая основа, обычно используемая для моделирования среды в RL) не предполагают, что существует уникальное действие, которое может привести из одного состояния s1 в другое состояние s2.

Так что любая литература о RL также охватывает случай, который вы описываете.

Например, этот MDP из статьи Википедии для процесса принятия решений Марковым показывает случай, когда вы можете перейти из состояния s1 в состояние s2 двумя способами и один шаг:

enter image description here

...