Вообще говоря, причина, по которой мы нормализуем изображения, заключается в том, чтобы модель сходилась быстрее. Когда данные не нормализованы, общие веса сети имеют разные калибровки для разных функций, что может привести к тому, что функция затрат будет сходиться очень медленно и неэффективно. Нормализация данных значительно упрощает обучение функции затрат.
Какой именно метод нормализации вы выберете, зависит от данных, с которыми вы имеете дело, и от ваших предположений относительно этих данных. Все три вышеуказанных метода нормализации основаны на двух идеях: центрировании и масштабировании. Способ 2. включает только масштабирование данных в определенный диапазон. Это гарантирует, что масштаб различных объектов находится в одинаковом диапазоне и, следовательно, дает стабильные градиенты. Метод 1. включает центрирование данных вокруг среднего значения точки данных, а затем деление каждого измерения точки данных на его стандартное отклонение, чтобы все измерения имели одинаковую важность для алгоритма обучения. Эта нормализация более эффективна, когда у вас есть основания полагать, что различные измерения в данных имеют существенно различающийся диапазон. Приведение всех измерений в один и тот же диапазон делает эффективное использование параметров эффективным. Метод 3 также может рассматриваться как кто-то, выполняющий работу sam как метод 1.