Мне действительно нужна новая коллекция Solr? - PullRequest
0 голосов
/ 20 апреля 2020

Я использую Apache Solr для индексации данных из разных источников. Каждый источник создает документы, которые немного отличаются от других. Не совсем отличается ... просто немного .

Например, допустим, у меня есть 10 источников . Документы, полученные из всех источников , разделяют 3 поля . Однако в каждом из 10 источников вводятся 5 указанных c полей , которые присутствуют только в документах из этого источника.

Должен ли я:

  1. Положиться на 1 коллекция solr с очень разреженными данными , имеющая схему из 80 полей, откуда я знаю, что в каждом документе можно использовать только 8 полей?
  2. Положитесь на 10 коллекций solr с очень плотными данные , имеющие 10 схем с 8 полями в каждой, всегда используются?

Конечно, решение 2 сложнее поддерживать и не позволяет мне запрашивать данные из всех источников одним из общие поля. С другой стороны, я боюсь, что решение 1 может иметь худшие характеристики (при выборе, а также при вставке) и тратить больше места для хранения.

Что может быть лучшим решением? Мы собираемся хранить около 1 миллиарда документов. Мне не удалось найти какой-либо ресурс, помогающий мне принять это решение.

...