Question

У меня проблемы с пониманием алгоритма SARSA: http://en.wikipedia.org/wiki/SARSA

В частности, при обновлении значения Q, что такое гамма? и какие значения используются для s (t + 1) и a (t + 1)?

Может кто-нибудь объяснить мне этот алгоритм?

Спасибо.

Don Reba · Answer 1 · 22 мая 2011

Гамма определяет, сколько памяти имеет ваш алгоритм.Если вы установите его на 0.0, то ваш алгоритм вообще не будет обновлять функцию значения Q .Если вы установите его на 1,0, то новому опыту будет придан такой же вес, как и всем предыдущим вместе взятым.Лучшие значения лежат между ними и должны быть определены экспериментально.

Вот как это работает:

На первом шаге вы просто получаете состояние.Просто сохраните его как s _t.Кроме того, найдите в своей функции значения лучшее действие, которое можно выполнить в этом состоянии, и сохраните его как a _t.
На каждом последующем шаге вы получаете r _{t + 1} и s _{t + 1}.Опять же, используйте функцию значения, чтобы найти лучшее действие - a _{t + 1}.Значение перехода от вашего предыдущего действия к новому равно r _{t + 1} + Q (с _{t + 1}, a _{t + 1}) - Q (s _T, а _{T * 1 040 *) * * тысяча сорок один.Используйте это, чтобы обновить вашу долгосрочную оценку значения предыдущего действия Q (с _t, a _t t) .Наконец, сохраните s _{t + 1} и a _{t + 1} как s _t и a _t для следующего шага.}

По сути, функция значений - это просто скользящее среднее этих значений обновления для каждого действия и каждогосостояние.

Алгоритм SARSA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Алгоритм SARSA

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы