Я создал скрипт веб-скрапинга в python, который непрерывно работает на виртуальной машине Google Cloud для загрузки базы данных для моего веб-приложения. различные поля ввода) столько раз в секунду, сколько возможно. Я использую прокси-серверы, чтобы избежать CAPTCHA.
Очевидно, что это задача с интенсивным использованием сети, однако при использовании многопоточности для ускорения работы я предполагаю, что это также приведет к интенсивной загрузке процессора. Таким образом, я подготовил виртуальную машину с высоким ЦП.
Каковы преимущества использования Concurrent Futures в Python с максимальным количеством рабочих около 500 для создания нового потока для каждого сетевого вызова по сравнению с использованием чего-то вроде сельдерея?