Понимание того, что происходит в течение одной эпохи DBOW - PullRequest
0 голосов
/ 14 июня 2019

Я использую Distributed Bag of Words (DBOW), и мне интересно, что происходит в течение одной Эпохи?DBOW циклически просматривает все документы (также называемые пакетными) или циклически обрабатывает подмножество документов (также называемые мини-пакетными)?Кроме того, для данного документа DBOW будет случайным образом выбирать слово из текстового окна и узнавать весовые коэффициенты, чтобы связать это целевое слово с окружающими словами в окне, означает ли это, что DBOW может не пройти весь текст в документе?

Я прошел через GENSIM (https://github.com/RaRe-Technologies/gensim) код, чтобы определить, есть ли параметр для партии, но не повезло.

1 Ответ

0 голосов
/ 14 июня 2019

Одна эпоха обучения PV-DBOW в gensim Doc2Vec будет повторять все тексты, а затем для каждого текста повторять все их слова, пытаясь предсказать каждое слово по очереди, а затем обратно распространяя поправки для этого предсказанногослово сразу.Таким образом, «мини-пакетирование» вообще отсутствует: каждое целевое слово является индивидуальным прогнозом / обратным распространением.

(Существует своего рода пакетирование в том, как группы текстов отправляются врабочие потоки, которые могут несколько изменить порядок, но каждый отдельный обучающий пример, представленный в нейронной сети, корректируется индивидуально, поэтому мини-пакетирование SGD не происходит.)

Слова каждого текста рассматриваютсяпо порядку и пропускается только в том случае, если (а) слово появилось менее чем min_count раз;(б) слово встречается очень часто и выбрано для случайного отбрасывания через значение параметра sample.Таким образом, вы обычно можете думать о тренинге как о включении всех значимых слов каждого документа.

...