Как правильно зациклить найденные URL-адреса, чтобы получить их? - PullRequest
0 голосов
/ 09 июля 2019

Я начал с топологии по умолчанию, но хочу выполнить рекурсивный обход.Поэтому мне нужно изменить файл потока, чтобы зациклить обнаруженные URL-адреса обратно в сборщик, и я не уверен, что это лучший способ сделать это?

Есть хороший пример того, как это сделать?Может быть, работа с Elasticsearch?

С уважением, Крис

1 Ответ

1 голос
/ 09 июля 2019

Вам нужно хранить информацию об URL при выполнении рекурсивного сканирования. Обратной отправки в сборщик недостаточно, поскольку он не учитывает дубликаты и не дает вам никакого контроля над расписанием.

Существует множество опций, доступных во внешних модулях, Elasticsearch - один из них, вы также можете использовать SOLR или SQL-бэкэнд.

См. на нашем канале Youtube , чтобы узнать, как использовать SC с ES.

Существует реализация StatusUpdater, которая возвращает обнаруженные URL-адреса обратно в MemorySpout, но это просто полезно для тестирования / отладки в локальном режиме.

...