У нас есть Spark-задание, которое запускается каждые 10 минут (в среднем, для выполнения задания требуется 5 минут). В этой работе мы в основном выполняем полное внешнее соединение и кэшируем данные. Задания выполняются плавно в течение пары часов, и на одном этапе (описанном ниже) застряли и остаются в активном состоянии навсегда. На этапе, где он застревает, выполняется какое-то действие, и мы видим, что на этом этапе возникает проблема с нехваткой памяти, поэтому он выполняет несколько попыток;однако после 1 или 2 попыток он застревает / зависает и прогресса нет.
Я пытаюсь выяснить, почему работа застревает даже после сбоя. Я ожидаю, что задание должно либо повторить неудачные задачи и перейти к ним, либо завершиться со статусом ошибки. Однако задание застряло, ни одна задача не находится в рабочем состоянии, и только один этап находится в активной стадии.