Celery vs. Concurrent Futures для сетевых задач - PullRequest
0 голосов
/ 05 мая 2020

Я создал скрипт веб-скрапинга в python, который непрерывно работает на виртуальной машине Google Cloud для загрузки базы данных для моего веб-приложения. различные поля ввода) столько раз в секунду, сколько возможно. Я использую прокси-серверы, чтобы избежать CAPTCHA.

Очевидно, что это задача с интенсивным использованием сети, однако при использовании многопоточности для ускорения работы я предполагаю, что это также приведет к интенсивной загрузке процессора. Таким образом, я подготовил виртуальную машину с высоким ЦП.

Каковы преимущества использования Concurrent Futures в Python с максимальным количеством рабочих около 500 для создания нового потока для каждого сетевого вызова по сравнению с использованием чего-то вроде сельдерея?

...