Градиент получения с использованием градиентного спуска VS SGD - PullRequest
0 голосов
/ 09 апреля 2020

оптимизация с использованием GD

оптимизация с использованием мини-партии Stochasti c градиентный спуск (SGD)

Мы ясно видим на изображении оптимизация с использованием градиентного спуска является более прямой и будет сходиться быстрее, чем сравнение с мини-серией SGD, которая имеет зигзагообразный характер. Таким образом, чтобы улучшить производительность SGD, член импульса добавляется как:

SGD с импульсом

, который ясно указывает, что, когда все точки отправляются одновременно (градиентное снижение) в многослойном персептроне (MLP) наклон касательной при массе 'W' больше, чем значение наклона касательной, полученное с использованием мини-партии SGD. В результате нам нужно добавить больше значения (члена импульса) со значением градиента, полученного из мини-пакета, чтобы быстрее сходиться SGD.

Почему значение наклона касательной получают, когда все точки отправляются одновременно (градиентный спуск) - это больше, чем количество точек, отправляемых сетевой модели на каждой итерации (пакетный SGD) ??

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...