Я перебираю эту тетрадь распознавания героев ResNet34 , опубликованную на Kaggle.
Автор использует метод learn.lr_find()
fastai, чтобы найти оптимальную скорость обучения.
Plotting функция потерь по отношению к скорости обучения дает следующий показатель:
Кажется, что потеря достигает минимума для 1e-1, но в следующем шаг Автор передает 1e-2 как max_lr в fit_one_cycle
, чтобы обучить свою модель:
learn.fit_one_cycle(6,1e-2)
Зачем использовать 1e-2 над 1e-1 в этом примере? Разве это не сделает обучение медленнее?