Скорость обучения и разница градиентного спуска? - PullRequest
0 голосов
/ 07 октября 2019

В чем разница между этими двумя? Например, эти два служат для достижения минимальной точки (меньшей потери) функции.

Я понимаю (я думаю), что скорость обучения умножается наградиент (наклон), чтобы сделать градиентный спуск, но так ли это? Я что-то пропускаю?

В чем разница между lr и градиентом?

Спасибо

1 Ответ

1 голос
/ 07 октября 2019

Нейронные сети глубокого обучения обучаются с использованием алгоритма стохастического градиентного спуска.

Стохастик градиентного спуска - это алгоритм оптимизации, который оценивает градиент ошибки для текущего состояния модели, используя примеры иззатем обучающий набор данных обновляет весовые коэффициенты модели с использованием алгоритма обратного распространения ошибок, называемого просто обратным распространением.

Количество, которое обновляют весовые коэффициенты во время обучения, называется размером шага или« скорость обучения

В частности, скорость обучения - это настраиваемый гиперпараметр, используемый при обучении нейронных сетей, имеющий небольшое положительное значение, частов диапазоне от 0,0 до 1,0.

Скорость обучения определяет, насколько быстро модель адаптируется к проблеме. Меньшие скорости обучения требуют большего количества эпох обучения, учитывая меньшие изменения, вносимые в веса каждого обновления, тогда как более высокие скорости обучения приводят к быстрым изменениям и требуют меньшего количества периодов обучения.

Слишком высокая скорость обучения может привести к тому, что модельслишком быстро сходятся к неоптимальному решению, в то время как слишком низкая скорость обучения может привести к застреванию процесса.

Задача обучения нейронных сетей глубокого обучения заключается в тщательном выборе скорости обучения. Это может быть самый важный гиперпараметр для модели.

Скорость обучения, пожалуй, самый важный гиперпараметр. Если у вас есть время настроить только один гиперпараметр, настройте скорость обучения.

- стр. 429, Deep Learning, 2016.

Подробнее о том, что такое скорость обученияи как это работает, см. пост:

Как настроить гиперпараметр скорости обучения при обучении нейронных сетей глубокого обучения

Также вы можете обратиться сюда: Понять влияние скорости обучения на производительность нейронной сети

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...