Ускорит ли Spark алгоритмы передачи данных? - PullRequest
0 голосов
/ 05 марта 2019

У меня есть некоторый опыт (конечно, не эксперт) с общими параллельными вычислениями, и сейчас я думаю об изучении Spark.Я начал с самых простых примеров в pyspark, используя .parallelize, .groupBy, .map, .collect и т. Д.

Интересно, какие дополнительные преимущества Spark предоставляет по сравнению с простым ванильным распараллеливанием,что в python это было бы что-то вроде pool.map(func, data_iterable).

Мне кажется, что Spark лучше только тогда, когда алгоритм перегружен данными, скажем, когда объем данных равен или больше, чем ОЗУ, я вижу преимущество наличия такой структуры, как Spark, для управления процессом.Но для вычислительно интенсивного, но легкого в использовании кода, есть ли дополнительное преимущество от использования Spark?

...