Понимание Scrapy Engine - PullRequest
       10

Понимание Scrapy Engine

0 голосов
/ 26 июня 2019

Это вопрос, чтобы глубже понять двигатель скрапа. На моем сервере я могу запускать несколько процессов очистки параллельно (процесс очистки можно запустить с помощью API-интерфейса Scrapy или просто запустив процесс Scrapy в командной строке).

Звучит хорошо, но давайте обратимся к следующей фотографии архитектуры scrapy:

Scrappy arhcitecture

Насколько я понимаю, у каждого процесса очистки будет свой собственный движок, планировщик, загрузчик и т. Д. Существует возможность указать / настроить процесс обработки для одновременного выполнения нескольких обходов.

Означает ли это, что если я приказываю каждому процессу выполнять 50 запросов параллельно, мой сервер будет выполнять 100 запросов параллельно (потому что у меня запущено 2 процесса). Вот еще несколько вопросов, которые у меня есть:

  • Как лучше всего научить скрапу проводить параллельные обходы?
  • Должен ли я определить все URL-адреса в начальных URL-адресах, и тогда планировщик scrapy автоматически планирует для меня сканирование или есть другой способ?
  • Есть ли документация по планировщику?
  • Меня немного больше интересует, как именно работает планировщик и как распараллеливаются обходы?
  • Где должны быть определены URL, чтобы scrapy выполнял параллельные запросы?

Спасибо за ответы на мои вопросы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...