DeltaFetch - это плагин Scrapy, в котором хранятся отпечатки посещенных URL-адресов при разных запусках Spider.Вы можете использовать этот плагин для добавочного (дельта) сканирования.Его главная цель - избегать запроса страниц, которые уже были удалены ранее, даже если это произошло в предыдущем выполнении.Он будет отправлять запросы только на страницы, с которых ранее не было извлечено ни одного элемента, на URL-адреса из атрибута start_urls пауков или запросы, сгенерированные в методе start_requests пауков.
См .: https://blog.scrapinghub.com/2016/07/20/scrapy-tips-from-the-pros-july-2016/
Хранилище плагинов: https://github.com/scrapy-plugins/scrapy-deltafetch
На панели инструментов Scrapinghub вы можете активировать ее на странице Настройка дополнений внутри проекта Scrapy Cloud.Однако вам также нужно активировать / включить аддон DotScrapy Persistence, чтобы он работал.