Откуда берется отображение word2vec для DBOW doc2vec в реализации gensim? - PullRequest
1 голос
/ 06 июня 2019

Я пытаюсь использовать gensim для doc2vec и word2vec.

Поскольку подход PV-DM может генерировать word2vec и doc2vec одновременно, я подумал, что PV-DM является подходящей моделью для использования.

Итак, я создал модель, используя gensim, указав dm=1 для PV-DM

Мои вопросы следующие:

  1. Правда ли, что word2vecМодель обучается вместе с doc2vec, когда я вызываю train на объекте Doc2vec ??

  2. кажется, что свойство wv содержит word2vec и доступно даже до тренировки.Это статическая версия word2vec?

  3. Я также создал модель DBOW и заметил, что она также содержит wv.Это также та же статическая версия word2vec, о которой я упоминал в предыдущем вопросе?

1 Ответ

1 голос
/ 07 июня 2019

(1) Да, векторы слов обучаются одновременно с документами в режиме PV-DM.

(2) Содержимое свойства wv до начала обучения - это произвольно инициализированные, неподготовленные слова-векторы. (Как и в word2vec, все векторы получают случайные начальные позиции низкой величины.)

(3) В обычном режиме PV-DBOW (dm=0) из-за совместного использования кода векторы wv все еще выделяются и инициализируются, но никогда не обучаются. В конце обучения PV-DBOW, wv слова-векторы останутся неизменными и, таким образом, будут случайными / бесполезными. (Они вообще не участвуют в тренировках.)

Если вы включите необязательный параметр dbow_words=1, тогда обучение пропускаемым словам будет смешано с простым обучением PV-DBOW. Это будет сделано с чередованием, поэтому каждое целевое слово (которое должно быть предсказано) будет использоваться для обучения doc-вектора PV-DBOW, а затем соседних вектор-слов контекста. В результате, wv слова-векторы будут обучены и в «одном пространстве» для значимых сравнений с документ-векторами.

При использовании этой опции обучение займет больше времени, чем в обычном PV-DBOW (по коэффициенту, связанному с размером window). Для любой конкретной конечной цели векторы документов в этом режиме могли бы быть лучше (если бы словесные предсказания эффективно помогали расширить корпус полезными способами) или хуже (если модель тратит так много усилий на слово в словесные предсказания эффективно разбавляют / подавляют другие закономерности в полных документных предсказаниях между словами).

...