Какова точная разница между градиентом приличия c приличный, приличный мини-градиент и приличный градиент? - PullRequest
0 голосов
/ 14 января 2020

Я новичок в искусственном интеллекте. Я только изучил GD и о партиях для градиента приличного. Я не совсем понимаю, какая между ними точная разница. Любое решение для этого будет оценено. Заранее спасибо

Ответы [ 2 ]

1 голос
/ 14 января 2020

Проверьте это.

Как в градиентном спуске (GD), так и в стохастическом c градиентном спуске (SGD), вы итеративно обновляете набор параметров, чтобы минимизировать функцию ошибки. Находясь в GD, вы должны пройти через все выборки в вашем обучающем наборе, чтобы выполнить одно обновление для параметра в определенной итерации, в SGD, с другой стороны, вы используете только один или подмножество обучающего образца из своего обучающего набора. сделать обновление для параметра в конкретной итерации. Если вы используете подмножество, оно называется Minibatch Stochasti c Gracent Descent. Таким образом, если количество обучающих выборок велико, а на самом деле очень велико, то использование градиентного спуска может занять слишком много времени, потому что на каждой итерации, когда вы обновляете значения параметров, вы проходите полный обучающий набор. С другой стороны, использование SGD будет быстрее, потому что вы используете только один обучающий образец, и он начинает улучшаться сразу же после первого образца. SGD часто сходится намного быстрее по сравнению с GD, но функция ошибок не так минимизирована, как в случае GD. Часто в большинстве случаев близкого приближения, которое вы получаете в SGD для значений параметров, достаточно, потому что они достигают оптимальных значений и продолжают колебаться там.

Надеюсь, это поможет вам.

1 голос
/ 14 января 2020

Все эти методы являются методами оптимизации первого порядка, требуют только знания градиентов, чтобы минимизировать функции суммирования ie. Это означает, что мы минимизируем функцию F, которая записывается как сумма N функций f_ {i}, и мы можем вычислить градиент каждой из этих функций в любой заданной точке.

Методы GD состоят в использовании градиента F, который равен сумме градиентов всех f_ {i} для одного обновления, т.е.

x <- x - alpha* grad(F)

Stochasti c GD, cinsists выбирает случайным образом одну функцию f_ {i} и выполняет обновление, используя его градиенты, то есть

x <- x - alpha*grad(f_{i})

Таким образом, каждое обновление происходит быстрее, но нам нужно больше обновлений, чтобы найти оптимальный.

Мини-пакет GD находится между этими двумя стратегиями и случайным образом выбирает m функций f_ {i} для выполнения одного обновления.

Для получения дополнительной информации посмотрите эту ссылку

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...