У меня есть большое количество предложений в базе данных, и я хочу найти наиболее похожие из этих предложений к одному предложению, которое вводит пользователь.
Похоже, я смогу сделать это с annoy и gensim , но все примеры, которые я вижу, используют word2ve c, который, как я считаю, хорош для поиска отдельных похожих слов, но не для предложений. Тем не менее, я отмечаю, что AnnoyIndexer () может принимать модель word2ve c ИЛИ модель doc2ve c.
Верно ли я, что процесс такой же, но замена модели word2ve c на doc2ve c модель и использование вектора doc2ve c поискового предложения?
Нужно ли каким-либо образом использовать предварительно обученные вложения слов или я буквально обучаю модель doc2ve c с набором предложений, которые у меня есть в моей базе данных?
Спасибо!