пустой планировщик, пополните планировщик с URL в scrapy - PullRequest
0 голосов
/ 16 января 2020

Проблема в том, что я очищаю веб-сайт с помощью прокси-серверов, поэтому веб-сайт закроет некоторую информацию, которая мне была нужна, когда я запросил веб-сайт после некоторого подсчета. Итак, что я делаю, так это то, что я вычищаю столько, сколько могу без логина + прокси , но после некоторой очистки я узнаю, что сайт не разрешает данные. Так что теперь я должен войти! (теперь логин + прокси) Так что после логина я продолжаю соскоб. ТЕПЕРЬ ПРОБЛЕМА, есть некоторые URL, которые уже находятся в очереди (планировщик), которые будут удалены без имени входа (поэтому я хочу получить эти URL-адреса с именем входа, чтобы я мог успешно обработать эти данные.) Так что Я хочу очистить планировщик, состоящий из URL, созданного без входа в систему.

Итак, вот что я уже сделал.

1 . Я вхожу (успешно).

2 . Включить кэш

3 и установить приоритет 1 для Login URl тоже

возможное решение относительно меня.

1 . Перезагрузите все URL-адреса в очереди, которые получили ответ, прежде чем я войду в систему (поэтому я должен сделать кэш после ответа)! Как я могу это сделать ??

2 Очистить очередь планировщика, чтобы я мог пополнить ее с помощью входа в систему (поэтому кэширование не требуется). как это сделать?? Как очистить очередь планировщика через скрипт.

1 Ответ

0 голосов
/ 16 января 2020

Я бы предложил одну из следующих возможностей:

  • Всегда ли протоколирование регистрируется
  • Получить все URL-адреса в массиве и выполнить итерацию вручную, чтобы контролировать необходимость входа в систему ( Пример Scrapy )
  • Вы можете установить логическое значение в БД (используя SQLAlchemy или другую систему), чтобы узнать, нужно ли войти в следующий запрос на сканирование
  • Вы можете установить логическое значение в переменной экземпляра в пауке, чтобы узнать, нужно ли войти в следующий запрос для сканирования
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...