Насколько я понимаю, пакетный (ванильный) градиентный спуск обновляет один параметр для всех обучающих данных.Стохастический градиентный спуск (SGD) позволяет обновлять параметры для каждой обучающей выборки, помогая модели быстрее сходиться, за счет значительных колебаний потери функции.
Пакетные (ванильные) комплекты градиентного спуска batch_size=corpus_size
.
SGD комплекты batch_size=1
.
И мини-наборы градиентного спуска batch_size=k
, в которых k
обычно составляет 32, 64, 128 ...
Как gensim применяет SGD или мини-спуск градиентного спуска?Кажется, что batch_words
является эквивалентом batch_size
, но я хочу быть уверенным.
Является ли установка batch_words=1
в модели gensim эквивалентной применению SGD?