- Количество задач задается числом разделов RDD / DataFrame
- Количество задач, которые исполнитель может обрабатывать параллельно, определяется количеством ядер, кроме случаев, когда
spark.task.cpus
настроен на что-то другое, чем 1 (что является значением по умолчанию)
Так что думайте о задачах как о некотором (независимом) куске работы, который должен быть обработан. Они, безусловно, могут работать параллельно
Так что, если у вас 1000 разделов и 5 исполнителей по 4 ядра в каждом, 20 задач, как правило, будут выполняться параллельно