Python Многопроцессорность для миллионов URL-адресов - PullRequest
1 голос
/ 06 августа 2020

Я работаю над проектом, который требует получения миллионов URL-адресов и интерпретации полученных данных. В настоящее время часть выборки и часть обработки находятся на одном сервере, что, конечно, не идеально.

Как мне масштабировать это решение? Должен ли быть один сервер с большим объемом памяти для выполнения части выборки? и второй сервер с большим количеством ядер ЦП, который выполняет часть обработки.

Все данные в настоящее время хранятся в MySQL. Будет ли это узким местом?

Я использую Python 3.0 и многопоточность.

Любые комментарии приветствуются.

1 Ответ

0 голосов
/ 06 августа 2020

У меня относительно ограниченные знания об этих вещах, но вот как я это сделаю. Я считаю, что для извлечения не потребуется дурацкий объем памяти, а только мощность процессора для поиска и перемещения файлов. Машина, которая обрабатывает их в моем воображении, должна иметь больше памяти и, желательно, больше ядер и потоков

Итак, Сервер 1: приоритет скорости ядер и потоков над количеством

Сервер 2: приоритет памяти и большего количества ЦП ядра и потоки

Надеюсь, я смог чем-то помочь -

...