Параллельное выполнение работ по очистке в кластере - PullRequest
0 голосов
/ 18 марта 2019

Я хотел бы разделить чистящие URL-адреса среди многих процессов сканирования и запускать их в отдельных облачных экземплярах Google.Я мог бы сделать это вручную (тот же паук с просто разными входными данными), но очень неудобно управлять 10-20 экземплярами.Есть ли возможность запустить группу экземпляров и указать, какой процесс должен выполняться на каком экземпляре?Я использую Scrapy Spider и сейчас я разделю входные данные вручную.Следующим шагом будет использование очереди redis.

У меня есть опыт работы с MPI и кластерными вычислениями.Я помню, что была возможность указать максимальное количество процессов на узел.Я хотел бы сделать подобное в этом случае.

...