поиск сходства документов - annoy & pysparNN - PullRequest
0 голосов
/ 05 сентября 2018

Я пытаюсь найти решение для поиска ближайшего или приблизительного ближайшего соседа документов.

Сейчас я использую tfidf как векторное представление документа. Мои данные довольно большие (N ~ миллион). Если я использую раздражение с tfidf, у меня заканчивается память. Я подумал, что это из-за высокой размерности tfidf (мой словарный запас составляет около 2000000 китайских слов).

Затем я попробовал это с pysparNN, который прекрасно работает. Однако меня беспокоит то, что размер моих данных растет, pysparNN создает больший индекс, и в итоге он может не вписаться в оперативную память. Это проблема ab, потому что pysparNN не использует статический файл, как это делает annoy.

Мне интересно, что может быть хорошим решением для поиска ближайшего соседа для текстовых данных. Сейчас я пытаюсь использовать индекс раздражения gensim с doc2ve

1 Ответ

0 голосов
/ 27 марта 2019

Я не считаю tfidf отличным решением для встраивания документов. Вы можете попытаться извлечь более сложные текстовые (doc) вложения, используя FastText, LASER, gensim, BERT, ELMO и другие, а затем использовать annoy или faiss для построения индекса для получения сходств.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...