Частичная индексация в Apache Solr 7.3.1 - PullRequest
0 голосов
/ 06 октября 2018

Я использую solr 7.3.1 для индексации документов.Прямо сейчас он индексирует все документы в указанном месте (что довольно много, около 1 ТБ).Индексирование всей папки занимает 3-4 дня.И документы продолжают редактироваться, добавляться, удаляться каждый час.Как лучше всего обновлять индекс solr?

1 Ответ

0 голосов
/ 06 октября 2018

Создайте небольшое приложение, которое прослушивает события файловой системы внутри иерархии документов, в которой хранятся документы.

Таким образом, вы можете отправить документы в Solr, как только они будут записаны на диск.То, как вы это сделаете, будет зависеть от вашей операционной системы и того, на каких языках вы сможете писать код. В Linux есть хуки для inotify, которые вы можете использовать через inotifywait и bash, или вы можете использовать inotify как модуль python .

Таким образом, вы можете индексировать любой обновленный документ, как только он будет записан на диск, и вы можете сделать это во время обычной начальной операции индексации.

Однако, если каждый документ меняется каждый час (то есть вы должны индексировать каждый отдельный документ в течение часа, каждого часа), вам придется масштабировать свою инфраструктуру, чтобы иметь возможность индексировать содержимое каккак можно быстрее в течение часа, но то, как именно это сделать, будет зависеть от многих факторов (таких как типы документов, доступные библиотеки, другие ограничения в проекте и т. д.) и, вероятно, выходит за рамки того, на что здесь можно ответить прилично.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...