Spark выполняет соединения последовательно, даже если они представлены в параллельных потоках - PullRequest
0 голосов
/ 05 декабря 2018

Я запускаю 4 параллельных потока на узле драйвера в Spark, которые делают то же самое, но с разными данными.Spark выполняет все представленные задания параллельно до момента соединения.На этом этапе действия объединения выполняются последовательно.Вот что показывает SparkUI: enter image description here

Есть ли что-нибудь, что я могу сделать, чтобы соединения выполнялись параллельно?

ОБНОВЛЕНИЕ:

Команда, которую я использую для запуска процесса:

spark-submit  
   --master local[16]  
   --class ...  
   --driver-memory 11G  
   --conf spark.default.parallelism=4  
   --conf spark.sql.shuffle.partitions=4

Я использую только 4 раздела, потому что данные, которые я обрабатываю, очень малы (2-3 МБ).
В настоящее время я тестирую локальноРежим.Для производства я буду использовать кластер EMR.

1 Ответ

0 голосов
/ 06 декабря 2018

Проблема заключалась в том, что я сохранял данные сразу после объединения.После удаления персистента соединения выполнялись параллельно.

...