Нейронные сети глубокого обучения обучаются с использованием алгоритма стохастического градиентного спуска.
Стохастик градиентного спуска - это алгоритм оптимизации, который оценивает градиент ошибки для текущего состояния модели, используя примеры иззатем обучающий набор данных обновляет весовые коэффициенты модели с использованием алгоритма обратного распространения ошибок, называемого просто обратным распространением.
Количество, которое обновляют весовые коэффициенты во время обучения, называется размером шага или« скорость обучения .»
В частности, скорость обучения - это настраиваемый гиперпараметр, используемый при обучении нейронных сетей, имеющий небольшое положительное значение, частов диапазоне от 0,0 до 1,0.
Скорость обучения определяет, насколько быстро модель адаптируется к проблеме. Меньшие скорости обучения требуют большего количества эпох обучения, учитывая меньшие изменения, вносимые в веса каждого обновления, тогда как более высокие скорости обучения приводят к быстрым изменениям и требуют меньшего количества периодов обучения.
Слишком высокая скорость обучения может привести к тому, что модельслишком быстро сходятся к неоптимальному решению, в то время как слишком низкая скорость обучения может привести к застреванию процесса.
Задача обучения нейронных сетей глубокого обучения заключается в тщательном выборе скорости обучения. Это может быть самый важный гиперпараметр для модели.
Скорость обучения, пожалуй, самый важный гиперпараметр. Если у вас есть время настроить только один гиперпараметр, настройте скорость обучения.
- стр. 429, Deep Learning, 2016.
Подробнее о том, что такое скорость обученияи как это работает, см. пост:
Как настроить гиперпараметр скорости обучения при обучении нейронных сетей глубокого обучения
Также вы можете обратиться сюда: Понять влияние скорости обучения на производительность нейронной сети