Нейронная сеть решает задачу оптимизации. Пока она вычисляет градиент в правильном направлении, но может быть случайной, это не мешает ее цели обобщать данные. Это может застрять в некоторых местных оптимах. Но есть много хороших методов, таких как Adam, RMSProp, основанные на импульсе и т. Д., С помощью которых он может достичь своей цели.
Другая причина, когда вы говорите, что мини-пакет, есть, по крайней мере, некоторая выборка, по которой она может обобщать эту выборку, могут быть колебания частоты ошибок, и, по крайней мере, это может дать нам локальное решение.
Даже при каждой случайной выборке эти мини-партии имеют различную выборку-2, что помогает хорошо обобщать по всему распределению.
Для выбора гиперпараметра вам необходимо выполнить настройку и проверить результат на невидимых данных, прямого способа их выбора не существует.