Question

Я запускаю паука с определенными входными URL-адресами и сохраняю URL-адреса в корзине S3.Структура, в которой я сохраняю ее в S3, состоит в том, что сначала есть папка с именем в качестве даты (например, 6/11/2019), а внутри находятся подпапки с именами веб-сайтов в качестве имени подпапок, содержащихURL-адреса страниц этого конкретного сайта.Много раз, паук пролезает через один и тот же сайт и сохраняет его в корзине S3.

Итак, я хочу запретить пауку сканировать сайты, которые были просканированы несколько дней назад, а также я хочу удалить все дубликаты подпапок из корзины S3.

lorg · Answer 1 · 11 июня 2019

Вам нужно где-то сохранить список уже просканированных страниц и не посещать эти страницы. Вы можете получить его непосредственно из S3 или, альтернативно, из какого-то постоянного хранилища, такого как Redis или Dynamo, или даже из реляционной БД.

Как избежать того, чтобы Spider (веб-сканер) сканировал уже просканированный сайт?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как избежать того, чтобы Spider (веб-сканер) сканировал уже просканированный сайт?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов