фильтрация повторяющихся запросов в веб-скребинге - PullRequest
0 голосов
/ 16 октября 2019

В scrapy Request по умолчанию dont_filter=False, и это признак слабого кода, если он установлен True, каковы способы борьбы с ним, когда паук будет сталкиваться с точным запросом URL (во время его очистки), кроме написания ответак файлу, затем читая его (если существует).

Мой паук запускает список элементов (каждый будет проходить один и тот же процесс) с общим количеством запросов около 100k

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...