Обновить правило во временной разнице - PullRequest
1 голос
/ 28 мая 2010

Правило обновления TD (0) Q-Learning:

Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Затем выполните текущее наилучшее действие (для оптимизации) или случайное действие (для проводника)

Где MaxNextQ - максимальное значение Q, которое можно получить в следующем состоянии ...


Но в TD (1) я думаю, что правило обновления будет:

Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )

Мой вопрос:
Термин gamma * Reward(t-1) означает, что я всегда буду предпринимать свои лучшие действия в t-1 .., что, я думаю, не позволит исследовать ..
Может кто-нибудь дать мне подсказку?

Спасибо

1 Ответ

2 голосов
/ 29 мая 2010

Вы говорите об использовании "следов приемлемости", верно? См. уравнения и алгоритм .

Обратите внимание на уравнение e_t (s, a) . При использовании шага исследования штраф не применяется.

...