Я запускаю паука с определенными входными URL-адресами и сохраняю URL-адреса в корзине S3.Структура, в которой я сохраняю ее в S3, состоит в том, что сначала есть папка с именем в качестве даты (например, 6/11/2019), а внутри находятся подпапки с именами веб-сайтов в качестве имени подпапок, содержащихURL-адреса страниц этого конкретного сайта.Много раз, паук пролезает через один и тот же сайт и сохраняет его в корзине S3.
Итак, я хочу запретить пауку сканировать сайты, которые были просканированы несколько дней назад, а также я хочу удалить все дубликаты подпапок из корзины S3.