Все эти методы являются методами оптимизации первого порядка, требуют только знания градиентов, чтобы минимизировать функции суммирования ie. Это означает, что мы минимизируем функцию F, которая записывается как сумма N функций f_ {i}, и мы можем вычислить градиент каждой из этих функций в любой заданной точке.
Методы GD состоят в использовании градиента F, который равен сумме градиентов всех f_ {i} для одного обновления, т.е.
x <- x - alpha* grad(F)
Stochasti c GD, cinsists выбирает случайным образом одну функцию f_ {i} и выполняет обновление, используя его градиенты, то есть
x <- x - alpha*grad(f_{i})
Таким образом, каждое обновление происходит быстрее, но нам нужно больше обновлений, чтобы найти оптимальный.
Мини-пакет GD находится между этими двумя стратегиями и случайным образом выбирает m функций f_ {i} для выполнения одного обновления.
Для получения дополнительной информации посмотрите эту ссылку