Как избежать того, чтобы Spider (веб-сканер) сканировал уже просканированный сайт? - PullRequest
0 голосов
/ 11 июня 2019

Я запускаю паука с определенными входными URL-адресами и сохраняю URL-адреса в корзине S3.Структура, в которой я сохраняю ее в S3, состоит в том, что сначала есть папка с именем в качестве даты (например, 6/11/2019), а внутри находятся подпапки с именами веб-сайтов в качестве имени подпапок, содержащихURL-адреса страниц этого конкретного сайта.Много раз, паук пролезает через один и тот же сайт и сохраняет его в корзине S3.

Итак, я хочу запретить пауку сканировать сайты, которые были просканированы несколько дней назад, а также я хочу удалить все дубликаты подпапок из корзины S3.

1 Ответ

1 голос
/ 11 июня 2019

Вам нужно где-то сохранить список уже просканированных страниц и не посещать эти страницы. Вы можете получить его непосредственно из S3 или, альтернативно, из какого-то постоянного хранилища, такого как Redis или Dynamo, или даже из реляционной БД.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...