Я пытаюсь научиться машинному обучению, поэтому я беру курс и в настоящее время изучаю градиентный спуск для линейной регрессии.Я только что узнал, что если скорость обучения достаточно мала, значение, возвращаемое функцией стоимости, должно непрерывно уменьшаться до сходимости.Когда я представляю, что это делается в цикле кода, мне кажется, что я могу просто отслеживать, сколько было стоить в предыдущей итерации, и выйти из цикла, если новая стоимость больше предыдущей, поскольку это говорит нам о скорости обученияслишком великЯ хотел бы услышать мнения, так как я новичок в этом, но чтобы не делать этот вопрос в первую очередь основанным на мнениях, мой главный вопрос заключается в следующем: будет ли что-то не так с этим методом определения скорости обучения, которая должнабыть уменьшенным?Я был бы признателен за пример, когда этот метод потерпит неудачу, если это возможно.