Могу ли я использовать растущее изображение для инвертированного индекса lucence - PullRequest
0 голосов
/ 16 октября 2019

У нас более 5 миллиардов документов, которые необходимо проиндексировать для полнотекстового поиска. Все эти документы являются статическими и их не нужно менять.

После многих исследований мы обнаружили, что использование растровых растровых изображений с Redis для создания инвертированного индекса очень быстро с минимальными ресурсами.

Теперь вопрос: можем ли мы использовать растущие растровые изображения в инвертированном индексе люцены?

1 Ответ

1 голос
/ 28 октября 2019

Идея использования ревущих битовых карт уже была оценена в мире Lucene. Вы можете взглянуть на полные результаты здесь - http://people.apache.org/~jpountz/doc_id_sets4.html

Общая идея заключается в том, что хотя растущие растровые изображения эффективны, его можно использовать только в 2 функциях:

  • Перебор всех подходящих документов (что может иметь место, если вы выполняете запрос с постоянным счетом)

  • Переход к первому идентификатору документа, содержащемуся в наборе, обычно используется при пересечении фильтраи запрос

В целом, я думаю, что в настоящее время Lucene использует кодировку Elias-Fano в большинстве случаев, которая измеряется как более быстрая. Также это означает, что вы можете просто использовать Lucene и быть уверенным, что он имеет большую скорость в построении инвертированного индекса и обработке запросов

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...