Как осуществить дельта-сканирование с помощью скрапа? - PullRequest
0 голосов
/ 16 декабря 2018

Я хочу часто сканировать большой веб-сайт со скрапом, чтобы находить новейший контент и выявлять недоступные элементы.

Мой полный обход включает загрузку изображений.Поэтому, если я перезапишусь, изображения будут загружены снова, так как я не могу использовать кеширование scrapyВключение кеша будет только сканировать страницу из кеша, насколько я понимаю.

HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 3600

Все изменения перечислены на домашней странице.Так что соскребая эту страницу каждые 10 м, я должен дать мне все новые ссылки, но как насчет тех, срок действия которых истек?Как я могу «пинговать» их, чтобы определить элементы, которые больше не доступны (статус 404)?Может быть, так?

if (get_headers($url)[0] >= 400) 
    // remove item as no longer available

Каков рекомендуемый способ поддерживать обновленный набор данных при минимальных ресурсах, и есть ли что-то подобное, уже встроенное в scrapy?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...