Правило обновления TD (0) Q-Learning:
Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max( Q(t) ) )
Затем выполните текущее наилучшее действие (для оптимизации) или случайное действие (для проводника)
Где MaxNextQ - максимальное значение Q, которое можно получить в следующем состоянии ...
Но в TD (1) я думаю, что правило обновления будет:
Q(t-2) = (1-alpha) * Q(t-2) + (alpha) * (Reward(t-2) + gamma * Reward(t-1) + gamma * gamma * Max( Q(t) ) )
Мой вопрос:
Термин gamma * Reward(t-1)
означает, что я всегда буду предпринимать свои лучшие действия в t-1
.., что, я думаю, не позволит исследовать ..
Может кто-нибудь дать мне подсказку?
Спасибо