Создайте небольшое приложение, которое прослушивает события файловой системы внутри иерархии документов, в которой хранятся документы.
Таким образом, вы можете отправить документы в Solr, как только они будут записаны на диск.То, как вы это сделаете, будет зависеть от вашей операционной системы и того, на каких языках вы сможете писать код. В Linux есть хуки для inotify
, которые вы можете использовать через inotifywait
и bash
, или вы можете использовать inotify
как модуль python .
Таким образом, вы можете индексировать любой обновленный документ, как только он будет записан на диск, и вы можете сделать это во время обычной начальной операции индексации.
Однако, если каждый документ меняется каждый час (то есть вы должны индексировать каждый отдельный документ в течение часа, каждого часа), вам придется масштабировать свою инфраструктуру, чтобы иметь возможность индексировать содержимое каккак можно быстрее в течение часа, но то, как именно это сделать, будет зависеть от многих факторов (таких как типы документов, доступные библиотеки, другие ограничения в проекте и т. д.) и, вероятно, выходит за рамки того, на что здесь можно ответить прилично.