Скорость обучения, которую вы определяете для оптимизаторов, таких как ADAM, является верхней границей. Вы можете увидеть это в статье в разделе 2.1. Размер шага α в статье - это скорость обучения.
Эффективная величина шагов, предпринятых в пространстве параметров на каждом, приблизительно ограничена настройкой размера шага α
Также этот размер шага α используется непосредственно и умножается на шаг коррекция размера, который выучил. Таким образом, изменение скорости обучения, например, снижение, приведет к снижению всех индивидуальных скоростей обучения и уменьшению верхней границы. Это может быть полезно во время «окончания» тренинга, чтобы уменьшить общие размеры шагов, так что происходят только меньшие шаги и могут помочь сети найти минимумы в функции потерь.
Я видел снижение скорости обучения в некоторых работах использовал ADAM и использовал его сам, и это помогло. Я обнаружил, что вы должны делать это медленнее, чем, например, с SGD. С одной моделью я просто умножаю ее на 0,8 каждые 10 эпох. Так что это постепенное затухание, которое, я думаю, работает лучше, чем большее количество шагов c, так как вы не «обесцениваете» ожидаемые импульсы слишком сильно. Но это только моя теория.