Как настроить StormCrawler? - PullRequest
       155

Как настроить StormCrawler?

0 голосов
/ 01 августа 2020

Хотя я работаю с Apache Storm некоторое время, я новичок в StormCrawler.

Я начал проект с архетипа StormCrawler + ES. Однако, чтобы настроить StormCrawler, в какой c точке должны быть добавлены дополнительные болты?

Дэйв.

1 Ответ

0 голосов
/ 03 августа 2020

Один из способов сделать это - написать собственный болт и добавить его между сборщиком и анализатором. Он должен смотреть на метаданные для любого типа mime, указанного в HTTP-ответе (с учетом префикса, используемого для хранения информации из протокола ), возможно, обнаруживая тип mime, как это сделано в JSOUPParser . Если это изображение, выполните для него вашу специфицированную c обработку, а затем отправьте на вывод. Если это не так, отправьте в настраиваемый поток; последний будет подключен к парсеру JSOUP, чтобы вы могли получать исходящие ссылки; первый идет в ES.

Вы можете найти примеры работы с нестандартными потоками в разных местах, в частности, модуль Tika .

...