Я запускаю 4 параллельных потока на узле драйвера в Spark, которые делают то же самое, но с разными данными.Spark выполняет все представленные задания параллельно до момента соединения.На этом этапе действия объединения выполняются последовательно.Вот что показывает SparkUI: ![enter image description here](https://i.stack.imgur.com/cvI2m.png)
Есть ли что-нибудь, что я могу сделать, чтобы соединения выполнялись параллельно?
ОБНОВЛЕНИЕ:
Команда, которую я использую для запуска процесса:
spark-submit
--master local[16]
--class ...
--driver-memory 11G
--conf spark.default.parallelism=4
--conf spark.sql.shuffle.partitions=4
Я использую только 4 раздела, потому что данные, которые я обрабатываю, очень малы (2-3 МБ).
В настоящее время я тестирую локальноРежим.Для производства я буду использовать кластер EMR.