Недавний рефакторинг, сделанный Doc2Vec
, больше не делит суперкласс с этим методом. Вы могли бы вместо этого вызвать метод для вашего model_dm.wv
объекта, но я не уверен. В противном случае вы можете посмотреть на исходный код и имитировать код для достижения того же эффекта, если вам действительно нужен этот шаг.
Но учтите, что Doc2Vec
не нужны векторы слов в качестве входных данных: он может узнать все, что ему нужно, из ваших собственных тренировочных данных. Поможет ли вектор слов из других мест, зависит от множества факторов - и чем больше ваши собственные данные или чем они более уникальны, тем меньше предварительно загруженных векторов из других источников могут помочь или даже иметь какой-либо остаточный эффект при вашей собственной тренировке готово.
Другие примечания о вашей очевидной настройке:
dbow_words=1
не будет действовать в режиме dm=1
- этот режим уже изначально обучает слова-векторы. (Он действует только в режиме dm=0
DBOW, где он добавляет дополнительное чередованное обучение слов, если вам нужны словесные векторы. Часто простой DBOW, без обучения слов-векторов, является быстрым и эффективным вариантом.)
В последних версиях gensim требуется больше аргументов для обучения, и обратите внимание, что типичная опубликованная работа с этим алгоритмом использует 10-20 (или иногда больше) пропусков данных (что можно указать для train()
через epochs
аргумент), а не значение по умолчанию (в некоторых версиях gensim) 5.