Использование solr для индексации разных типов данных - PullRequest
1 голос
/ 16 июня 2009

Я рассматриваю возможность использования Apache solr для индексации данных в новом проекте. Данные состоят из разных независимых типов, что означает, например,

  • ботанические
  • животные
  • автомобилей
  • Компьютеры

к индексу. Должен ли я использовать разные индексы для каждого типа или имеет больше смысла использовать только один индекс? Как использование многих индексов влияет на производительность? Или есть какая-то другая возможность добиться этого?

Спасибо.

1 Ответ

7 голосов
/ 16 июня 2009

Оба являются законными подходами, но есть компромиссы. Во-первых, насколько велик ваш набор данных? Если он достаточно большой, чтобы разделить его на несколько серверов, возможно, имеет смысл использовать разные индексы.

Во-вторых, насколько важна производительность - индексирование всего этого вместе, вероятно, приведет к снижению производительности, но степень зависит от того, сколько существует данных и насколько сложные запросы могут быть получены.

В-третьих, вам нужно запросить несколько типов данных в одном поиске? Если это так, индексация всего вместе может быть удобным способом разрешить это. Технически это может быть достигнуто с помощью отдельных индексов, но получение наиболее релевантных результатов для запроса может быть проблемой (не то, что это уже не так)

В-четвертых, единый индекс с единой схемой и конфигурацией может упростить жизнь тому, кто будет развертывать и обслуживать систему.

Еще одна вещь, которую следует учитывать, это идентификаторы - все ли разные объекты имеют уникальный идентификатор для всех типов? Если нет, вам, вероятно, потребуется сгенерировать это, если вы хотите проиндексировать их вместе.

...