Модель Gensim Doc2Vec
может быть сохранена и загружена с использованием методов .save(filepath)
& .load(filepath)
. (Использование этих методов native-gensim будет работать на более крупных моделях, чем может поддерживать обычное Python, и более эффективно сохранять некоторые большие внутренние массивы в виде отдельных файлов. (При перемещении сохраненной модели обязательно сохраните это вспомогательные файлы вместе с основным файлом, который находится точно в filepath
месте.)
Ранее обученная модель Doc2Vec
может генерировать do c -векторы для новых текстов с помощью метода .infer_vector(list_of_words)
.
Обратите внимание, что list_of_words
, предоставленный этому методу, должен был быть предварительно обработан / токенизирован точно так же, как данные обучения - и любые слова, которые не присутствовали (или достаточно min_count
часто встречаются) в данных обучения, будут игнорируется. (В крайнем случае, это означает, что если вы передадите list_of_words
без распознанных слов, все слова будут проигнорированы, и вы получите обратно случайный инициализированный, но полностью не улучшенный вектор по логическому выводу.)
Тем не менее, если вы переоцениваете или переобучаете последующие прогностические модели новым данным из какого-то нового домена, вы Также часто хотелось бы переучить этап Doc2Vec
со всеми доступными данными, чтобы у него была возможность выучить новые слова из новых контекстов использования. (В основном, когда ваши данные об обучении были обширными и репрезентативными, а ваши новые данные поступают постепенно и без значительных изменений в словаре / использовании / области, на которые вы бы хотели положиться .infer_vector()
.)