Как сделать параллельное индексирование по файлам (не по HDFS) в Solr? - PullRequest
0 голосов
/ 20 мая 2018

Я пока не могу найти подходящее решение, вот мой env:

  1. Cloudera Solr
  2. 1 ТБ данных из файловой системы для индексации
  3. формат данных только JSON

Я знаю, как выполнять индексацию в файловой системе, например, в отдельном файле или папке, но как мне это сделать параллельно?Поскольку данные не помещаются и не могут быть помещены в HDFS, это ограничивает возможное решение использования инструмента MapReduce или Spark.

Кто-нибудь сталкивается с такой же потребностью?Спасибо.

1 Ответ

0 голосов
/ 20 мая 2018

Написание индексатора с использованием языка программирования, с которым вы знакомы и который использует часть доступных файлов, вероятно, является лучшим выбором, тогда как запуск нескольких копий этого индексатора (или использование нескольких потоков, если это легко доступно) - позволяет вамотправляйте контент параллельно и с нескольких серверов, если это необходимо.

Не используйте явные коммиты в каждом клиенте - используйте commitWithin, чтобы вы фиксировали только каждые 60 секунд (или 10 минут, или ... любой интервал, который вам подходит).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...