Почему Spark Job застревает и не завершает работу даже после сбоев задачи - PullRequest
0 голосов
/ 15 октября 2019

У нас есть Spark-задание, которое запускается каждые 10 минут (в среднем, для выполнения задания требуется 5 минут). В этой работе мы в основном выполняем полное внешнее соединение и кэшируем данные. Задания выполняются плавно в течение пары часов, и на одном этапе (описанном ниже) застряли и остаются в активном состоянии навсегда. На этапе, где он застревает, выполняется какое-то действие, и мы видим, что на этом этапе возникает проблема с нехваткой памяти, поэтому он выполняет несколько попыток;однако после 1 или 2 попыток он застревает / зависает и прогресса нет.

Я пытаюсь выяснить, почему работа застревает даже после сбоя. Я ожидаю, что задание должно либо повторить неудачные задачи и перейти к ним, либо завершиться со статусом ошибки. Однако задание застряло, ни одна задача не находится в рабочем состоянии, и только один этап находится в активной стадии.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...