Question

Я запускаю 4 параллельных потока на узле драйвера в Spark, которые делают то же самое, но с разными данными.Spark выполняет все представленные задания параллельно до момента соединения.На этом этапе действия объединения выполняются последовательно.Вот что показывает SparkUI:

Есть ли что-нибудь, что я могу сделать, чтобы соединения выполнялись параллельно?

ОБНОВЛЕНИЕ:

Команда, которую я использую для запуска процесса:

spark-submit  
   --master local[16]  
   --class ...  
   --driver-memory 11G  
   --conf spark.default.parallelism=4  
   --conf spark.sql.shuffle.partitions=4

Я использую только 4 раздела, потому что данные, которые я обрабатываю, очень малы (2-3 МБ).
В настоящее время я тестирую локальноРежим.Для производства я буду использовать кластер EMR.

Flavius Dumitrascu · Answer 1 · 06 декабря 2018

Проблема заключалась в том, что я сохранял данные сразу после объединения.После удаления персистента соединения выполнялись параллельно.

Spark выполняет соединения последовательно, даже если они представлены в параллельных потоках

ОБНОВЛЕНИЕ:

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark выполняет соединения последовательно, даже если они представлены в параллельных потоках

ОБНОВЛЕНИЕ:

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы