Я начинаю рисковать в распределенном коде и испытываю затруднения с выяснением, какое решение соответствует моим потребностям, основываясь на всем этом. По сути, у меня есть список данных Python, которые мне нужно обработать с помощью одной функции. Эта функция имеет несколько вложенных циклов, но не занимает слишком много времени (около минуты) для каждого элемента в списке. Моя проблема в том, что список очень большой (более 3000 наименований). Я смотрю на многопроцессорность, но думаю, что хочу поэкспериментировать с многосерверной обработкой (потому что в идеале, если данные становятся больше, я хочу иметь возможность добавить больше серверов во время выполнения задания, чтобы ускорить его выполнение) ,
Я в основном искал что-то, через что я мог бы распространять этот список данных (и не супер, но было бы неплохо, если бы я мог также распространять свою базу кода)
Итак, мой вопрос: какой пакет я могу использовать для достижения этой цели? Моя база данных - hbase, поэтому у меня уже есть hasoop (хотя я никогда не использовал hadoop, просто использую его для базы данных). Я смотрел на сельдерей и тоже крутил, но я не уверен, что подойдет под мои нужды.
Есть предложения?