Отдельные векторы могут быть обновлены, но класс модели gensim
Doc2Vec
не имеет большой поддержки для добавления дополнительных do c -векторов к себе.
Однако он может возвращать отдельные векторы для новых текстов, которые совместимы (сопоставимы) с существующими векторами, с помощью метода .infer_vector(words)
. Вы можете сохранить эти векторы в ваших собственных структурах данных для поиска.
Когда поступит достаточно новых документов, которые, по вашему мнению, будут лучше для вашей базовой модели, при обучении всем документам вы можете переобучить модель со всеми доступными данными, используя ее в качестве новой базы для .infer_vector()
, (Обратите внимание, что векторы из переобученной модели обычно не будут совместимы / сопоставимы с векторами из предыдущей модели: каждая тренировка загружает отдельное самосогласованное координатное пространство.)