Для списания веб-страниц я использую scraproxy , чтобы создать пул из 15 прокси в двух местах.
Сайт автоматически перенаправляет (302) страницу ReCapthca, когда запрос кажется подозрительным.
Я использую следующие настройки в терапии. Мне удалось очистить только 741 страницу с относительно низкой скоростью (5 страниц / мин).
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 30.0
AUTOTHROTTLE_MAX_DELAY = 260.0
AUTOTHROTTLE_DEBUG = True
DOWNLOAD_DELAY = 10
BLACKLIST_HTTP_STATUS_CODES = [302]
Какие-нибудь советы, как я могу избежать внесения в черный список? Кажется, что увеличение количества прокси-серверов может решить эту проблему, но, возможно, есть место и для улучшения настроек.