Скорость обучения - это гиперпараметр, который контролирует, насколько мы корректируем вес нашей сети с учетом градиента потерь.Чем ниже значение, тем медленнее мы движемся по нисходящему склону.Хотя это может быть хорошей идеей (с использованием низкой скорости обучения) с точки зрения обеспечения того, чтобы мы не пропустили ни одного локального минимума, это также может означать, что нам потребуется много времени для сближения, особенно если мы застряли наобласть плато.
новый_вес = существующий_вес - скорость обучения * градиент
Если скорость обучения слишком мала, градиентный спуск может быть медленным
Если скорость обучения быстрая, градиентный спуск может перескочитьминимум. Может не сойтись, может даже расходиться