Я хочу часто сканировать большой веб-сайт со скрапом, чтобы находить новейший контент и выявлять недоступные элементы.
Мой полный обход включает загрузку изображений.Поэтому, если я перезапишусь, изображения будут загружены снова, так как я не могу использовать кеширование scrapyВключение кеша будет только сканировать страницу из кеша, насколько я понимаю.
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 3600
Все изменения перечислены на домашней странице.Так что соскребая эту страницу каждые 10 м, я должен дать мне все новые ссылки, но как насчет тех, срок действия которых истек?Как я могу «пинговать» их, чтобы определить элементы, которые больше не доступны (статус 404)?Может быть, так?
if (get_headers($url)[0] >= 400)
// remove item as no longer available
Каков рекомендуемый способ поддерживать обновленный набор данных при минимальных ресурсах, и есть ли что-то подобное, уже встроенное в scrapy?