Производительность инвертированного индекса Solr против вторичных индексов HBase / Cassandra / etc - PullRequest
0 голосов
/ 08 ноября 2018

Я пытаюсь понять разницу между инвертированными индексами Solr и HBase. Мой вариант использования не нуждается в полнотекстовом поиске, релевантности или чем-то еще. Тем не менее, предположим, что я хочу провести

  • миллионы записей
  • схема поддерживает пару тысяч полей
  • каждая запись может содержать только пару сотен полей
  • поля могут быть числами, логическими значениями или строками (которые не нужно токенизировать или анализировать, или что-то еще)
  • необходимо иметь возможность поиска записей на основе ЛЮБОГО из этих полей. Поэтому нам понадобится инвертированный индекс для каждого поля.

Могут ли инвертированные индексы Solr дать мне такую ​​же производительность, как вторичные индексы в других базах данных, таких как HBase? Трудно найти сравнения между Solr и другими базами неполного текстового поиска.

Редактировать: чтобы уточнить, для текстовых полей я хотел бы иметь возможность выполнять запросы типа "содержит ли это поле следующую подстроку" или "строка начинается со следующей подстроки". Мне не нужно отвечать на вопросы типа «Можете ли вы найти мне документы, относящиеся к этому ключевому слову»

...