Как правило, если функция имеет большее значение по сравнению с другими функциями, а модель достаточно плотная, с достаточным количеством обучающей выборки, ваша модель автоматически придаст ей большее значение, оптимизируя весовые матрицы, чтобы учесть это, поскольку у нас есть частные производные в обратном распространении.которые рассчитывают изменения для каждого соединения, поэтому он учится придавать большее значение этой функции для себя.Если вы не нормализуете его, а масштабируете его до более высокой шкалы, возможно, вы преувеличиваете, это важно.
На практике нейронная сеть работает лучше всего, если входы центрированы и имеют белый цвет.Это означает, что их ковариация диагональна, а среднее - это нулевой вектор.Это улучшает оптимизацию нейронной сети, поскольку скрытые функции активации не насыщают так быстро и, таким образом, не дают почти нулевых градиентов на ранних этапах обучения.
Если вы масштабируете только одну функцию маленькимзначение, оно может иметь или не иметь желаемого эффекта, но более высокая вероятность имеет насыщенные градиенты, поэтому мы избегаем этого.