Возможно ли получить доступ к реактору с помощью паука Scrapy? - PullRequest
1 голос
/ 05 декабря 2011

Я смотрю на способы реализации задержек сканирования внутри пауков Scrapy. Мне было интересно, возможно ли получить доступ к методу реактора callLater изнутри паука? Это позволило бы легко проанализировать страницу после n секунд.

1 Ответ

2 голосов
/ 05 декабря 2011

Вы можете легко установить задержку, установив DOWNLOAD_DELAY в файле настроек.

DOWNLOAD_DELAY

По умолчанию: 0

Время (в секундах), в течение которого загрузчик должен ждать до загрузка последовательных страниц от одного и того же паука. Это можно использовать снизить скорость сканирования, чтобы избежать слишком сильного удара по серверам. Десятичные числа поддерживаются. Пример:

DOWNLOAD_DELAY = 0,25 # 250 мс задержки. Эта настройка также зависит от настройки RANDOMIZE_DOWNLOAD_DELAY (которая активируется дефолт). По умолчанию Scrapy не ждет фиксированное количество времени между запросами, но использует случайный интервал от 0,5 до 1,5 * DOWNLOAD_DELAY.

Вы также можете изменить эту настройку для каждого паука.

См. Также Документы Scrapy - DOWNLOAD_DELAY

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...