Может ли Apache Solr обрабатывать большие данные TeraByte - PullRequest
6 голосов
/ 12 января 2012

Я являюсь пользователем Apache Solr около года. Я использовал solr для простых инструментов поиска, но теперь я хочу использовать solr с 5TB данных. Я предполагаю, что 5TB данных будет 7TB, когда индексирую их согласно фильтру, который я использую. А затем я добавлю почти 50 МБ данных в час к тому же индексу.

1 - Есть ли проблемы с использованием одного сервера Solr с данными 5TB. (без осколков)

  • a- Может сервер solr отвечает на запросы в приемлемое время

  • b - ожидаемое время передачи данных размером 50 МБ по индексу 7 ТБ.

  • c- Существует ли верхний предел для размера индекса.

2 - какие предложения вы предлагаете

  • a- Сколько осколков мне следует использовать

  • b- Должен ли я использовать ядра Solr

  • c- Какую частоту передачи вы предлагали. (1 час в порядке)

3 - есть ли результаты испытаний для такого рода больших данных


Доступных данных по 5 ТБ нет, я просто хочу оценить, каков будет результат.

Примечание. Можно предположить, что аппаратные ресурсы не являются проблемой.

1 Ответ

3 голосов
/ 12 января 2012

если ваши размеры указаны для текста, а не для двоичных файлов (текст которых обычно будет намного меньше), то я не думаю, что вы можете притворяться, что делаете это на одном компьютере

Это похоже на Logly , и они используют SolrCloud для обработки такого количества данных.

Хорошо, если все документы с расширенными возможностями, общий размер текста для индексации будет намного меньше (для меня это примерно 7% от моего начального размера). В любом случае, даже с таким уменьшенным количеством, я думаю, у вас все еще слишком много данных для одного экземпляра.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...