оптимизация с использованием GD
оптимизация с использованием мини-партии Stochasti c градиентный спуск (SGD)
Мы ясно видим на изображении оптимизация с использованием градиентного спуска является более прямой и будет сходиться быстрее, чем сравнение с мини-серией SGD, которая имеет зигзагообразный характер. Таким образом, чтобы улучшить производительность SGD, член импульса добавляется как:
SGD с импульсом
, который ясно указывает, что, когда все точки отправляются одновременно (градиентное снижение) в многослойном персептроне (MLP) наклон касательной при массе 'W' больше, чем значение наклона касательной, полученное с использованием мини-партии SGD. В результате нам нужно добавить больше значения (члена импульса) со значением градиента, полученного из мини-пакета, чтобы быстрее сходиться SGD.
Почему значение наклона касательной получают, когда все точки отправляются одновременно (градиентный спуск) - это больше, чем количество точек, отправляемых сетевой модели на каждой итерации (пакетный SGD) ??