Question

Я пока не могу найти подходящее решение, вот мой env:

Cloudera Solr
1 ТБ данных из файловой системы для индексации
формат данных только JSON

Я знаю, как выполнять индексацию в файловой системе, например, в отдельном файле или папке, но как мне это сделать параллельно?Поскольку данные не помещаются и не могут быть помещены в HDFS, это ограничивает возможное решение использования инструмента MapReduce или Spark.

Кто-нибудь сталкивается с такой же потребностью?Спасибо.

MatsLindh · Answer 1 · 20 мая 2018

Написание индексатора с использованием языка программирования, с которым вы знакомы и который использует часть доступных файлов, вероятно, является лучшим выбором, тогда как запуск нескольких копий этого индексатора (или использование нескольких потоков, если это легко доступно) - позволяет вамотправляйте контент параллельно и с нескольких серверов, если это необходимо.

Не используйте явные коммиты в каждом клиенте - используйте commitWithin, чтобы вы фиксировали только каждые 60 секунд (или 10 минут, или ... любой интервал, который вам подходит).

Как сделать параллельное индексирование по файлам (не по HDFS) в Solr?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как сделать параллельное индексирование по файлам (не по HDFS) в Solr?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов