Работа с ежедневно обновляемым индексом семантического поиска - PullRequest
0 голосов
/ 25 апреля 2019

Я разрабатываю какой-то веб-сервис, в котором мне нужен семантический поиск по 100 миллионам не длинных текстов (около 1-2 предложений).Один из подходов, который я нашел, состоит в том, чтобы внедрить мои тексты в векторное пространство (например, с помощью LSI от gensim), а затем использовать некоторый приблизительный поиск ближайших соседей (например, с помощью faiss или annoy).Как я понимаю, faiss может построить «сжатый» индекс по векторам, которые поместятся в RAM без проблем.Тем не менее, моя база данных должна ежедневно обновляться в то же время.

Таким образом, вопрос заключается в следующем: как я могу реализовать некоторый код Python (возможно, с некоторой помощью Linux), который будет постоянно хранить индекс в ОЗУ и регулярно отвечать на поисковые запросы + индекс должен обновляться каждый день?Или, может быть, мои идеи совершенно неверны, и я должен работать по-другому?

...