Я знаю, что здесь уже есть вопрос по этому поводу ( Как избежать повторной загрузки медиафайлов на S3 в Scrapy? ), но у меня пока нет ответа
Я разработал паук с FilesPipeline, чтобы получить PDF-файлы с нескольких веб-сайтов.
Я понимаю, что класс FilesPipeline
использует GCSFilesStore
и функцию media_to_download
для сравнения даты атрибута BLOB-объекта last_modified
с текущим временем относительно продолжительности срока действия в днях (EXPIRES
изначально равен 90) Суть в том, что я хочу иметь возможность запускать мой паук время от времени и загружать только новые документы
Однако, когда я запускаю свой паук во второй раз, это действительно - снова загрузите все файлы
Я попытался увеличить параметр EXPIRES
, но, похоже, его не обрезал.
Спасибо за помощь, спасибо!
ОБНОВЛЕНИЕ:
Я думаю, что это ошибка от scrap. Я подал сообщение об ошибке на github , где я объясняю, как воспроизвести это