Spark опирается на локальность данных;На практике DAG Scheduler будет пытаться планировать максимальное количество задач, в которых данные будут обрабатываться на том же узле, что и исполнитель.spark.locality.wait - это параметр (со значением по умолчанию 3), который, по сути, означает, что если за последние 3 секунды ни одна задача не была выполнена с локальным расположением узла, он начнет выполнять задачи, получая данные от других узлов (согласно принципу осведомленности стойки).