CondorHT - Шесть бездействующих процессоров, которые постоянно создают снимки. Что не так? - PullRequest
0 голосов
/ 23 марта 2020

Я унаследовал кластер CondorHT, который хрустит облачные метрики. Один узел главного контроллера. Шесть рабочих узлов. Кластер работал отлично в течение нескольких месяцев, а затем внезапно ломается. Обычно кластеру требуется от 1 до 2 часов для завершения, но теперь он никогда не завершается и отключается / отключается при ежедневном отключении cron в полночь.

CollectorLog на главном узле обновляется сообщениями, указывающими на наличие какой-либо активности. Сообщения приходят примерно по одному каждые 20 секунд.

ProcLog на главном и рабочем узлах обновляется сообщениями примерно по одному каждые 20 секунд. «ни один из методов не определил, что процесс xxxx входит в контролируемое семейство .... создание снимка ... снимок завершен.»

В condor_status на главном узле все процессы отображаются как IDLE.

Как я могу отладить это?

1 Ответ

0 голосов
/ 24 марта 2020

Хм. HTCondor работает так, что планирует работу на машинах. Похоже, работа бездействует. Или, может быть, нет никаких рабочих мест. Итак, начнем там. Если вы запустите condor_q или, возможно, condor_q -all, в зависимости от версии condor, что это скажет о заданиях?

...