Я пытался понять, как масштабирование функций улучшает производительность градиентного спуска. Я нашел ответы, например, выполнение масштабирования функции придает поверхности ошибки более сферическую форму, где в противном случае это был бы эллипс очень высокой кривизны.