Question

Я смотрю на способы реализации задержек сканирования внутри пауков Scrapy. Мне было интересно, возможно ли получить доступ к методу реактора callLater изнутри паука? Это позволило бы легко проанализировать страницу после n секунд.

Sjaak Trekhaak · Answer 1 · 05 декабря 2011

Вы можете легко установить задержку, установив DOWNLOAD_DELAY в файле настроек.

DOWNLOAD_DELAY

По умолчанию: 0

Время (в секундах), в течение которого загрузчик должен ждать до загрузка последовательных страниц от одного и того же паука. Это можно использовать снизить скорость сканирования, чтобы избежать слишком сильного удара по серверам. Десятичные числа поддерживаются. Пример:

DOWNLOAD_DELAY = 0,25 # 250 мс задержки. Эта настройка также зависит от настройки RANDOMIZE_DOWNLOAD_DELAY (которая активируется дефолт). По умолчанию Scrapy не ждет фиксированное количество времени между запросами, но использует случайный интервал от 0,5 до 1,5 * DOWNLOAD_DELAY.

Вы также можете изменить эту настройку для каждого паука.

См. Также Документы Scrapy - DOWNLOAD_DELAY

Возможно ли получить доступ к реактору с помощью паука Scrapy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Возможно ли получить доступ к реактору с помощью паука Scrapy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов