Я столкнулся с ситуацией, когда кластер работал на AWS EMR, когда один этап оставался «работающим», когда план выполнения продолжал выполняться. Посмотрите на экран из Spark UI (задание 4 имеет запущенные задачи, однако задание 7 выполняется). У меня вопрос, как отладить такую ситуацию, если есть какие-нибудь советы, которые я могу найти в DAG? Я думал, что это может быть проблема с памятью, потому что данные жесткие, и на диск много разливов. Однако мне интересно, почему искра бездействует в течение часа. Это связано с проблемами памяти драйверов?
UPD1:
На основании запросов Ravi:
(1) проверить время с они бегут и время G C тоже. Если время GC составляет> 20% от времени выполнения, это означает, что ур ограничен памятью.
Нет, это не проблема.
(2) проверить количество активных задач на одной странице. Это действительно странно, есть исполнители с более активными задачами, чем емкость ядер (в 3 раза больше для некоторых исполнителей), однако я не вижу сбоев исполнителей. (3) посмотреть, все ли исполнители одинаково тратят время на выполнение задания. Не проблема (4) то, что вы показали выше, это работа, какие этапы et c? они тоже приостановлены навсегда?