Новичок разрабатывает свою архитектуру вопрос здесь:
Моя цель Я хочу отслеживать несколько профилей Twitter с течением времени.
То, что я хочу построить: A SpiderMother
класс, который взаимодействует с некоторой базой данных (содержащей CrawlJobs), чтобы порождать и управлять множеством маленьких пауков, каждый сканируя 1 пользовательскую страницу в твиттере на своемнерегулярный интервал (задания будут добавляться в базу данных по некоторому алгоритму).Они порождаются как подпроцессы SpiderMother
, и в зависимости от успешности сканирования задание базы данных удаляется.Это хорошая архитектура?
Проблема, которую я вижу:
Допустим, я породил 100 пауков, и мой предел CONCURRENT_REQUESTS
равен 10, будет ли твиттер.com пораженвсе 100 пауков сразу или они выстраиваются в линию и ходят один за другим?