Да, существует множество способов установить гиперпараметры в соответствии с функциями эпохи / итерации или производных потерь. Изменение скорости обучения при градиентном спуске интуитивно означает изменение размера шага, при этом один компромисс - большие шаги, выходящие за локальные оптимумы, но потенциально требующие большего количества шагов для схождения. Обычно начинать с большого и уменьшать имеет смысл, но есть много более оптимизированных методов, ускоряющих / регулирующих поведение подгонки и скалярной скорости обучения