Как Doc2Ve c оценивает новые слова? - PullRequest
0 голосов
/ 09 июля 2020

Я пытаюсь найти документы, максимально похожие на новый документ. Сначала была обучена модель doc2ve c, а теперь я представляю новый документ; Я сделал вывод о векторе для нового документа, но я плохо разбираюсь в тонкостях doc2ve c ... Если в новом документе много слов (подряд), с которыми старая модель никогда не сталкивалась , как это будет осуществляться?

1 Ответ

0 голосов
/ 09 июля 2020

Модель Doc2Vec может рассматривать только слова, которые она выучила во время обучения, из обучающих текстов. Неизвестные слова просто игнорируются.

Одно значение: документ с всеми новыми словами, переданными в infer_vector(), вернет случайный результат. Все выводы начинаются с случайного вектора небольшой величины, который затем корректируется в процессе, похожем на обучение, чтобы лучше предсказать присутствующие слова. Но без известных слов модель вообще не может выполнять никаких постепенно улучшаемых прогнозов, поэтому логический вывод не выполняется после инициализации.

...