Вам нужно хранить информацию об URL при выполнении рекурсивного сканирования. Обратной отправки в сборщик недостаточно, поскольку он не учитывает дубликаты и не дает вам никакого контроля над расписанием.
Существует множество опций, доступных во внешних модулях, Elasticsearch - один из них, вы также можете использовать SOLR или SQL-бэкэнд.
См. на нашем канале Youtube , чтобы узнать, как использовать SC с ES.
Существует реализация StatusUpdater, которая возвращает обнаруженные URL-адреса обратно в MemorySpout, но это просто полезно для тестирования / отладки в локальном режиме.