Я выполняю задание потоковой передачи с искрой ... Я обнаружил видимый пробел, когда Spark очищает всю обработку и распределение задач, а затем назначает ресурсы. В чем причина ... Что я пропустил, почему у spark есть промежуток между обработками.

Затем через некоторое время он выделяет задачу. Невозможно понять, почему это добавленное отставание и как решить это. 
Я также вижу разрыв между обработкой. Не уверен, почему существует почти 10-секундный разрыв между временем, которое драйвер выделяет для execctor с помощью широковещательной передачи, и началом обработки исполнителя ...
Опция широковещания передает данные от драйвера всем исполнителям. Я вижу видимый разрыв ... между каждым заданием.
20/04/24 05:25:18 ИНФОРМАЦИЯ BlockManagerInfo: Добавлено broadcast_30_piece0 в памяти на ip-10-201-.ec2.internal: 37887 (размер: 98,2 КБ, бесплатно: 2,2 ГБ) 20.04.24, 05:25:18 ИНФОРМАЦИЯ BlockManagerInfo: добавлено broadcast_30_piece0 в памяти на ip-10-201-.ec2.internal: 43203 (размер: 98,2 КБ, бесплатно: 2,2 ГБ)
Задача, запущенная исполнителем
20/04/24 05:25:27 INFO TaskSetManager: запуск задачи 37.0 на этапе 30.0 (TID 1970, ip-10-.ec2.internal, исполнитель 4, раздел 37, PROCESS_LOCAL, 9128 байт) 20.04.24 05:25:27 INFO TaskSetManager: завершено задание 7.0 на этапе 30.0 (TID 1946) за 8695 мс на ip-10-.ec2.internal (исполнитель 4) (1 / 64)