Question

Это вопрос, чтобы глубже понять двигатель скрапа. На моем сервере я могу запускать несколько процессов очистки параллельно (процесс очистки можно запустить с помощью API-интерфейса Scrapy или просто запустив процесс Scrapy в командной строке).

Звучит хорошо, но давайте обратимся к следующей фотографии архитектуры scrapy:

Scrappy arhcitecture

Насколько я понимаю, у каждого процесса очистки будет свой собственный движок, планировщик, загрузчик и т. Д. Существует возможность указать / настроить процесс обработки для одновременного выполнения нескольких обходов.

Означает ли это, что если я приказываю каждому процессу выполнять 50 запросов параллельно, мой сервер будет выполнять 100 запросов параллельно (потому что у меня запущено 2 процесса). Вот еще несколько вопросов, которые у меня есть:

Как лучше всего научить скрапу проводить параллельные обходы?
Должен ли я определить все URL-адреса в начальных URL-адресах, и тогда планировщик scrapy автоматически планирует для меня сканирование или есть другой способ?
Есть ли документация по планировщику?
Меня немного больше интересует, как именно работает планировщик и как распараллеливаются обходы?
Где должны быть определены URL, чтобы scrapy выполнял параллельные запросы?

Спасибо за ответы на мои вопросы.

Понимание Scrapy Engine

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Понимание Scrapy Engine

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов