Когда скорость обучения α определяется как α k = 1 / k, означает ли k количество выполненных действий?
Полный контекст:
Предположим, что агент проводит Q-обучение с коэффициентом дисконтирования ᵞ = 0: 9. Для агента доступны 4 действия: вверх, вправо, влево и вниз. Первоначально все значения Q равны нулю. Предположим, что он использует α k = 1 / k.