(1) Да, векторы слов обучаются одновременно с документами в режиме PV-DM.
(2) Содержимое свойства wv
до начала обучения - это произвольно инициализированные, неподготовленные слова-векторы. (Как и в word2vec, все векторы получают случайные начальные позиции низкой величины.)
(3) В обычном режиме PV-DBOW (dm=0
) из-за совместного использования кода векторы wv
все еще выделяются и инициализируются, но никогда не обучаются. В конце обучения PV-DBOW, wv
слова-векторы останутся неизменными и, таким образом, будут случайными / бесполезными. (Они вообще не участвуют в тренировках.)
Если вы включите необязательный параметр dbow_words=1
, тогда обучение пропускаемым словам будет смешано с простым обучением PV-DBOW. Это будет сделано с чередованием, поэтому каждое целевое слово (которое должно быть предсказано) будет использоваться для обучения doc-вектора PV-DBOW, а затем соседних вектор-слов контекста. В результате, wv
слова-векторы будут обучены и в «одном пространстве» для значимых сравнений с документ-векторами.
При использовании этой опции обучение займет больше времени, чем в обычном PV-DBOW (по коэффициенту, связанному с размером window
). Для любой конкретной конечной цели векторы документов в этом режиме могли бы быть лучше (если бы словесные предсказания эффективно помогали расширить корпус полезными способами) или хуже (если модель тратит так много усилий на слово в словесные предсказания эффективно разбавляют / подавляют другие закономерности в полных документных предсказаниях между словами).