У меня периодически возникает зависание, и мой кластер AWS EMR находится в состоянии, когда приложение работает, но кластер действительно завис. Я знаю, что если моя работа не застрянет, она закончится через 5 часов или меньше. Если он все еще работает после этого, это признак того, что работа застряла. Пряжа и интерфейс Spark по-прежнему отзывчивы, просто исполнитель застревает на задании.
Справочная информация: я использую эфемерный кластер EMR, который выполняет только один шаг перед завершением, поэтому убить его не проблема, если я замечаю, что эта работа зависает.
Какой самый простой способ убить задачу, задание или кластер в этом случае? В идеале это не потребует настройки какого-либо дополнительного сервиса для наблюдения за работой - в идеале я мог бы использовать какую-то настройку spark / yarn / emr.
Примечание. Я пытался использовать спекуляцию спекуляцией, чтобы разблокировать застрявшую работу с искрой, но это не помогает.