Во время массового обучения модели кандидат-вектор постепенно подталкивается, чтобы лучше предсказать слова текста, точно так же, как слово-векторное обучение.Таким образом, в конце обучения у вас есть документы-векторы для всех идентификаторов, которые вы указали вместе с текстами.
Вы можете получить к ним доступ из модели gensim
Doc2Vec
через индексированный поиск идентификатора в стиле doct (называемый 'doctag' в gensim') you provided during training:
model.docvecs [tag] `
После обучения, чтобы получить вектор документа для нового текста, используется процесс вывода. Модель удерживается замороженной, и для текста формируется новый случайный вектор-кандидат (как и те, которые начали массовое обучение для учебных текстов).Затем он постепенно увеличивается, полностью аналогично обучению, чтобы лучше предсказывать слова, но изменяется только один новый вектор-кандидат. (Все внутренние веса модели остаются неизменными.)
Вы можетевычислять такие новые векторы с помощью метода infer_vector()
, который принимает токены со списком слов, которые должны были быть предварительно обработаны так же, как тексты, предоставленные во время обучения: model.infer_vector(words)
.