Я унаследовал кластер CondorHT, который хрустит облачные метрики. Один узел главного контроллера. Шесть рабочих узлов. Кластер работал отлично в течение нескольких месяцев, а затем внезапно ломается. Обычно кластеру требуется от 1 до 2 часов для завершения, но теперь он никогда не завершается и отключается / отключается при ежедневном отключении cron в полночь.
CollectorLog на главном узле обновляется сообщениями, указывающими на наличие какой-либо активности. Сообщения приходят примерно по одному каждые 20 секунд.
ProcLog на главном и рабочем узлах обновляется сообщениями примерно по одному каждые 20 секунд. «ни один из методов не определил, что процесс xxxx входит в контролируемое семейство .... создание снимка ... снимок завершен.»
В condor_status на главном узле все процессы отображаются как IDLE.
Как я могу отладить это?