Scrapy предотвратить посещение одного и того же URL через график - PullRequest
0 голосов
/ 24 мая 2018

Я планирую развернуть паука Scrapy на ScrapingHub и использовать функцию расписания для ежедневного запуска паука.Я знаю, что по умолчанию Scrapy не посещает одни и те же URL-адреса.Тем не менее, мне было интересно, если это предотвращение повторяющихся URL-адресов является постоянным при запланированных запусках на ScrapingHub?И могу ли я установить его так, чтобы Scrapy не посещал одни и те же URL-адреса во время своих запланированных запусков.

1 Ответ

0 голосов
/ 25 мая 2018

DeltaFetch - это плагин Scrapy, в котором хранятся отпечатки посещенных URL-адресов при разных запусках Spider.Вы можете использовать этот плагин для добавочного (дельта) сканирования.Его главная цель - избегать запроса страниц, которые уже были удалены ранее, даже если это произошло в предыдущем выполнении.Он будет отправлять запросы только на страницы, с которых ранее не было извлечено ни одного элемента, на URL-адреса из атрибута start_urls пауков или запросы, сгенерированные в методе start_requests пауков.

См .: https://blog.scrapinghub.com/2016/07/20/scrapy-tips-from-the-pros-july-2016/

Хранилище плагинов: https://github.com/scrapy-plugins/scrapy-deltafetch

На панели инструментов Scrapinghub вы можете активировать ее на странице Настройка дополнений внутри проекта Scrapy Cloud.Однако вам также нужно активировать / включить аддон DotScrapy Persistence, чтобы он работал.

...