Соглашение об именовании Q-learning - PullRequest
0 голосов
/ 07 октября 2019

Когда скорость обучения α определяется как α k = 1 / k, означает ли k количество выполненных действий?

Полный контекст:

Предположим, что агент проводит Q-обучение с коэффициентом дисконтирования ᵞ = 0: 9. Для агента доступны 4 действия: вверх, вправо, влево и вниз. Первоначально все значения Q равны нулю. Предположим, что он использует α k = 1 / k.

...