У меня есть некоторый опыт (конечно, не эксперт) с общими параллельными вычислениями, и сейчас я думаю об изучении Spark.Я начал с самых простых примеров в pyspark
, используя .parallelize
, .groupBy
, .map
, .collect
и т. Д.
Интересно, какие дополнительные преимущества Spark предоставляет по сравнению с простым ванильным распараллеливанием,что в python это было бы что-то вроде pool.map(func, data_iterable)
.
Мне кажется, что Spark лучше только тогда, когда алгоритм перегружен данными, скажем, когда объем данных равен или больше, чем ОЗУ, я вижу преимущество наличия такой структуры, как Spark, для управления процессом.Но для вычислительно интенсивного, но легкого в использовании кода, есть ли дополнительное преимущество от использования Spark?