В пакетном градиентном спуске все данные обучения учитываются для выполнения одного шага. В мини-пакетном градиентном спуске вы учитываете некоторые данные перед тем, как делать один шаг, поэтому частота обновления модели выше, чем пакетный градиентный спуск.
Но мини-пакетный градиентный спуск имеет свои затраты:
Во-первых, мини-пакет делает некоторые проблемы обучения из технически непреодолимыми, чтобы их можно было решить из-за уменьшения потребности в вычислениях с меньшим размером пакета.
Во-вторых, уменьшенный размер пакета не обязательно означает снижение точности градиента. Во многих обучающих выборках много шумов, выбросов или смещений. сравнить
Я считаю, что из-за колебаний в мини-партии вы могли попасть в локальные минимумы. Попробуйте увеличить скорость обучения с помощью мини-пакета, это может решить проблему. также попробуйте нормализовать изображения, это тоже может помочь.