Question

Я пытаюсь найти решение для поиска ближайшего или приблизительного ближайшего соседа документов.

Сейчас я использую tfidf как векторное представление документа. Мои данные довольно большие (N ~ миллион). Если я использую раздражение с tfidf, у меня заканчивается память. Я подумал, что это из-за высокой размерности tfidf (мой словарный запас составляет около 2000000 китайских слов).

Затем я попробовал это с pysparNN, который прекрасно работает. Однако меня беспокоит то, что размер моих данных растет, pysparNN создает больший индекс, и в итоге он может не вписаться в оперативную память. Это проблема ab, потому что pysparNN не использует статический файл, как это делает annoy.

Мне интересно, что может быть хорошим решением для поиска ближайшего соседа для текстовых данных. Сейчас я пытаюсь использовать индекс раздражения gensim с doc2ve

shoegazerstella · Answer 1 · 27 марта 2019

Я не считаю tfidf отличным решением для встраивания документов. Вы можете попытаться извлечь более сложные текстовые (doc) вложения, используя FastText, LASER, gensim, BERT, ELMO и другие, а затем использовать annoy или faiss для построения индекса для получения сходств.

поиск сходства документов - annoy & pysparNN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

поиск сходства документов - annoy & pysparNN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы