![Mathematics behind Gradient Descent](https://i.stack.imgur.com/2Rh3S.png)
Чтобы минимизировать функцию стоимости, мы можем напрямую приравнять градиент / производную к нулю и получить требуемое значение для «m» и «b» и это даст нам минимальную стоимость.
Тогда зачем использовать скорость обучения и вычислять значения для «m» и «b» в стольких шагах и минимизировать функцию стоимости?