Да, кривая обучения зависит от размера партии.
Оптимальный размер пакета зависит от типа данных и общего объема данных.
В идеальном случае размер пакета 1 будет лучшим, но на практике, при больших объемах данных, этот подходЭто невозможно.
Я думаю, что вы должны сделать это с помощью экспериментов, потому что вы не можете легко рассчитать оптимальное значение.
Более того, когда вы изменяете размер пакета, вы можете также захотеть изменить скорость обучения, чтобы сохранить контроль над процессом.
Но, действительно, имеется инструмент для поиска оптимального (память иразмер партии довольно интересен.
Что такое стохастический градиентный спуск?
Стохастический градиентный спуск, часто сокращенно SGD, представляет собой разновидность алгоритма градиентного спуска, который вычисляетошибка и обновляет модель для каждого примера в наборе данных обучения.
Обновление модели для каждого примера обучения означает, что стохастический градиентный спуск часто называют онлайн-алгоритмом машинного обучения.
Что такоеПакетный градиентный спуск?
Пакетный градиентный спуск - это разновидность алгоритма градиентного спуска, который вычисляет ошибку для каждого примера в наборе обучающих данных, но обновляет модель только после оценки всех обучающих примеров.
Один цикл на протяжении всей тренировкиТасет называется эпохой обучения.Поэтому часто говорят, что пакетный градиентный спуск выполняет обновления модели в конце каждой обучающей эпохи.
Что такое мини-пакетный градиентный спуск?
Мини-пакетный градиентный спуск является вариациейалгоритм градиентного спуска, который разбивает обучающий набор данных на небольшие партии, которые используются для вычисления ошибки модели и обновления коэффициентов модели.
Реализации могут выбрать суммирование градиента по мини-партии или взять среднее значение градиента, которыйеще больше уменьшает дисперсию градиента.
Мини-пакетный градиентный спуск стремится найти баланс между устойчивостью стохастического градиентного спуска и эффективностью пакетного градиентного спуска.Это наиболее распространенная реализация градиентного спуска, используемая в области глубокого обучения.
Источник: https://machinelearningmastery.com/gentle-introduction-mini-batch-gradient-descent-configure-batch-size/