SARSA в обучении укреплению - PullRequest
0 голосов
/ 16 мая 2018

Я сталкиваюсь с алгоритмом SARSA в обучении подкрепления без модели.В частности, в каждом состоянии вы выполняете действие a, а затем наблюдаете новое состояние s'.

Мой вопрос: если у вас нет уравнения вероятности перехода состояния P{next state | current state = s0},откуда вы знаете, каким будет ваше следующее состояние?

Моя попытка : вы просто пытаетесь выполнить это действие a, а затем наблюдать из окружающей среды?enter image description here

Ответы [ 3 ]

0 голосов
/ 20 июля 2018

Да. Основываясь на опыте агента, сохраненном в функции значения действия, его политика поведения pi отображает текущее состояние s в действии a , которое приводит его к следующее состояние s ' и затем следующее действие a' .

Флюксограмма последовательностей пар состояния-действия.

0 голосов
/ 17 января 2019

Методика, называемая TD-Learning, используется в Q-learning и SARSA, чтобы избежать изучения вероятностей перехода.

Короче говоря, когда вы выполняете выборку, то есть взаимодействуете с системой и собираете выборки данных (состояние, действие, вознаграждение, следующее состояние, следующее действие), в SARSA неявно учитываются вероятности перехода при использовании выборок для обновите параметры вашей модели. Например, каждый раз, когда вы выбираете действие в текущем состоянии, а затем вы получаете вознаграждение и новое состояние, система фактически генерирует вознаграждение и новое состояние в соответствии с вероятностью перехода p (s ', r | a). , с).

Вы можете найти простое описание в этой книге,

Искусственный интеллект - современный подход

0 голосов
/ 16 мая 2018

Как правило, да, вы выполняете действие в среде, и среда сообщает вам следующее состояние.

...