Question

Привет всем Я делаю веб-приложение, которое сканирует множество страниц с определенного веб-сайта, я запустил свое программное обеспечение crawler4j с неограниченной глубиной и страницами, но внезапно оно прекратилось из-за подключения к Интернету.Теперь я хочу продолжить сканирование этого веб-сайта и не получать URL-адреса, которые я посетил, прежде чем посчитать, что у меня есть последние страницы глубины.

Примечание : я хочу как-то не проверять своисохраненный URL с URL-адресами, которые я получу, потому что я не хочу отправлять слишком много запросов на этот сайт.

** Спасибо ** ☺

rzo · Answer 1 · 07 декабря 2018

Вы можете использовать "возобновляемое" сканирование с crawler4j, включив эту функцию

crawlConfig.setResumableCrawling(true);

в данной конфигурации.См. Документацию crawler4j здесь .

Как возобновить сканирование после последней глубины, которую я достиг, когда перезапускаю свой сканер?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как возобновить сканирование после последней глубины, которую я достиг, когда перезапускаю свой сканер?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы