Одна эпоха обучения PV-DBOW в gensim Doc2Vec
будет повторять все тексты, а затем для каждого текста повторять все их слова, пытаясь предсказать каждое слово по очереди, а затем обратно распространяя поправки для этого предсказанногослово сразу.Таким образом, «мини-пакетирование» вообще отсутствует: каждое целевое слово является индивидуальным прогнозом / обратным распространением.
(Существует своего рода пакетирование в том, как группы текстов отправляются врабочие потоки, которые могут несколько изменить порядок, но каждый отдельный обучающий пример, представленный в нейронной сети, корректируется индивидуально, поэтому мини-пакетирование SGD не происходит.)
Слова каждого текста рассматриваютсяпо порядку и пропускается только в том случае, если (а) слово появилось менее чем min_count
раз;(б) слово встречается очень часто и выбрано для случайного отбрасывания через значение параметра sample
.Таким образом, вы обычно можете думать о тренинге как о включении всех значимых слов каждого документа.