Отправка этого вопроса, чтобы узнать, как Apache Spark собирает и координирует результаты от исполнителей.
Предположим, я работаю с 3 исполнителями. Мой DataFrame разделен и работает на этих 3 исполнителей. Итак, теперь, когда я выполняю действие count () или collect () в DataFrame, как spark будет координировать результаты этих 3 исполнителей?
val prods = spark.read.format("csv").option("header", "true").load("testFile.csv")
prods.count(); // How spark collect data from three executors? Who will coordinate the result from different executors and give it to driver?