Правильные настройки, чтобы избежать блокировки во время очистки - PullRequest
0 голосов
/ 05 января 2019

Для списания веб-страниц я использую scraproxy , чтобы создать пул из 15 прокси в двух местах.

Сайт автоматически перенаправляет (302) страницу ReCapthca, когда запрос кажется подозрительным.

Я использую следующие настройки в терапии. Мне удалось очистить только 741 страницу с относительно низкой скоростью (5 страниц / мин).

AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 30.0
AUTOTHROTTLE_MAX_DELAY = 260.0
AUTOTHROTTLE_DEBUG = True
DOWNLOAD_DELAY = 10
BLACKLIST_HTTP_STATUS_CODES = [302]

Какие-нибудь советы, как я могу избежать внесения в черный список? Кажется, что увеличение количества прокси-серверов может решить эту проблему, но, возможно, есть место и для улучшения настроек.

1 Ответ

0 голосов
/ 11 января 2019

Если вы можете себе это позволить, Crawlera , вероятно, лучший путь.

Однако в зависимости от типа защиты может быть достаточно использовать Splash .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...