Модель
A Doc2Vec
сможет сообщать обученные векторы только для документов, которые присутствовали во время обучения, и сможет infer_vector()
новые векторы документов для текстов, содержащих слова, которые присутствовали во время обучения.(Нераспознанные слова, переданные в .infer_vector()
, будут игнорироваться, подобно тому, как любые слова, появляющиеся менее чем min_count
раз, игнорируются во время обучения.)
Если со временем вы приобретете много новых текстов с новыми словарными словами,и эти слова важны, вам придется периодически переучивать модель Doc2Vec
.И после повторного обучения векторы документов из переобученной модели, как правило, не будут сопоставимы с векторами документов из исходной модели, поэтому классификаторы и другие приложения, использующие векторы документов, также нуждаются в обновлении.
Ваши собственные требования к производству / развертыванию будут определять частоту повторного обучения, а старые модели заменяются новыми.
(В то время как модель Doc2Vec
может в любое время подавать новые обучающие данные, поступая так постепенно, как своего рода «тонкая настройка», возникает сложная проблема баланса между старыми и новыми данными. И нетОфициальная поддержка Gensim для расширения существующего словарного запаса модели * 1013. * Таким образом, самый надежный курс - это переподготовка с нуля, используя все доступные данные.)
Несколько дополнительных замечаний к вашему примеру обучающего кода:
редко бывает хорошей идеей для min_count=1
: редкие слова часто служат «шумом», без достаточного количества примеров использования, чтобы хорошо моделировать, и, таким образом, «шум», который просто замедляет / мешаетпаттерны, которые можно выучить из более распространенных слов
dm_concat=1
, лучше всего рассматривать как экспериментальный / продвинутый режим, поскольку он делает модели значительно крупнее и медленнее в обучении с недоказанными преимуществами.
во многих опубликованных работах используется всего 10-20 учебных эпох;меньшие наборы данных или меньшие документы иногда выигрывают от большего, но 150 могут занимать много времени с очень незначительными преимуществами.