На самом деле, количество исполнителей не связано с количеством и размером файлов, которые вы собираетесь использовать в своей работе. Количество исполнителей зависит от количества ресурсов, таких как ядра и память, которые есть у каждого работника. Существует несколько правил, о которых вы можете прочитать больше на первая ссылка , вторая ссылка и третья ссылка .
Но в качестве совета, как правило, это принесет гораздо лучшую производительность, если вы назначите более одного исполнителя на одного работника. чтобы выяснить причину, взгляните на
Существует связь между двумя исполнителями в рабочих узлах. Другими словами, существует взаимодействие между различными рабочими узлами, пока ваша работа выполняется на узлах кластера. Таким образом, если у вас может быть более одного исполнителя на рабочем узле, вы уменьшите нагрузку на сеть для этого типа связи. Более того, вы бы намного лучше использовали ресурсы. Если вы правильно подчиняетесь указанным выше ссылкам о количестве исполнителей и внедряете оптимизацию, вы получите прекрасную работу с высокой производительностью.