В отличие от того, что вы можете догадаться, типичная Doc2Vec
тренировка не сначала обучает словосочетания, а затем составляет векторы документов, используя эти словосочетания.Скорее, в режимах, в которых используются векторы слов, векторы слов обучались одновременно и чередовались вместе с векторами документов, причем обе изменялись вместе.И в одном быстром и хорошо работающем режиме, PV-DBOW (dm=0
в gensim), векторы слов не обучаются или не используются вообще.
Таким образом, gensim Doc2Vec
не поддерживает предварительную загрузку состояния из другого места, и даже если бы он это сделал, он, вероятно, не обеспечил бы ожидаемого эффекта.(Вы можете копаться в исходном коде и, возможно, форсировать его, выполнив несколько шагов инициализации самостоятельно. Но тогда, если слова были в предварительно загруженном наборе, но не в ваших обучающих данных, обучая остальныеиз активных слов будет корректировать всю модель в направлении, несовместимом с импортированными, но необученными «иностранными» словами. Это только чередованное, совместное обучение перетягиванию каната состояния модели, которое делает различные векторы значимыми по отношению кдруг друга.)
Самая простая и надежная стратегия - попытаться расширить свой учебный корпус, найдя больше документов в аналогичном / совместимом домене, чтобы включить несколько различных примеров любых слов, с которыми вы можете столкнуться позже.(Если вы подумали, что некоторые другие словарные векторы были достаточно подходящими для вашей области, возможно, тексты, которые использовались для обучения этих словесных векторов, могут быть смешаны с вашим учебным корпусом. Это разумный способ поместить данные слова / документа из этогодругой источник в вашей модели на равных.)
И, по мере поступления новых документов, вы также можете время от времени переучивать модель с нуля, с теперь расширенным корпусом, позволяя новым документам вносить одинаковый вклад в модель.словарный запас и моделирование силы.