Искра незавершенных этапов. Приложение Spark бездействует - PullRequest
0 голосов
/ 04 февраля 2020

Я столкнулся с ситуацией, когда кластер работал на AWS EMR, когда один этап оставался «работающим», когда план выполнения продолжал выполняться. Посмотрите на экран из Spark UI (задание 4 имеет запущенные задачи, однако задание 7 выполняется). У меня вопрос, как отладить такую ​​ситуацию, если есть какие-нибудь советы, которые я могу найти в DAG? Я думал, что это может быть проблема с памятью, потому что данные жесткие, и на диск много разливов. Однако мне интересно, почему искра бездействует в течение часа. Это связано с проблемами памяти драйверов?

enter image description here

UPD1:

На основании запросов Ravi:

(1) проверить время с они бегут и время G C тоже. Если время GC составляет> 20% от времени выполнения, это означает, что ур ограничен памятью.

Нет, это не проблема. Executors tab

(2) проверить количество активных задач на одной странице. Это действительно странно, есть исполнители с более активными задачами, чем емкость ядер (в 3 раза больше для некоторых исполнителей), однако я не вижу сбоев исполнителей. active tasks (3) посмотреть, все ли исполнители одинаково тратят время на выполнение задания. Не проблема (4) то, что вы показали выше, это работа, какие этапы et c? они тоже приостановлены навсегда?

stages

...