Как возобновить сканирование после последней глубины, которую я достиг, когда перезапускаю свой сканер? - PullRequest
0 голосов
/ 20 ноября 2018

Привет всем Я делаю веб-приложение, которое сканирует множество страниц с определенного веб-сайта, я запустил свое программное обеспечение crawler4j с неограниченной глубиной и страницами, но внезапно оно прекратилось из-за подключения к Интернету.Теперь я хочу продолжить сканирование этого веб-сайта и не получать URL-адреса, которые я посетил, прежде чем посчитать, что у меня есть последние страницы глубины.

Примечание : я хочу как-то не проверять своисохраненный URL с URL-адресами, которые я получу, потому что я не хочу отправлять слишком много запросов на этот сайт.

** Спасибо ** ☺

1 Ответ

0 голосов
/ 07 декабря 2018

Вы можете использовать "возобновляемое" сканирование с crawler4j, включив эту функцию

crawlConfig.setResumableCrawling(true);

в данной конфигурации.См. Документацию crawler4j здесь .

...