Как определить, изменился ли файл на сервере с помощью Python / Scrapy - PullRequest
0 голосов
/ 12 марта 2019

Это продолжение этого вопроса.

Я хочу загружать файлы PDF ежедневно.Пока мой код Scrapy уже работает.Теперь я хочу узнать, изменились ли файлы PDF.

Есть ли в Scrapy встроенный механизм для этого? Я не смог найти подсказки в документации.

Если нет, я бы скачал соответствующий файл PDFи сравните его с файлом PDF предыдущего дня, используя эту модель:

Библиотека Python, чтобы определить, не изменился ли файл между различными прогонами?

1 Ответ

3 голосов
/ 12 марта 2019

Вы впервые скачиваете PDF-файл и сохраняете его.
При следующей загрузке вы рассчитываете хэш предыдущего файла и нового файла. Если оба значения одинаковы - в файле нет изменений.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...