Question

Я унаследовал кластер CondorHT, который хрустит облачные метрики. Один узел главного контроллера. Шесть рабочих узлов. Кластер работал отлично в течение нескольких месяцев, а затем внезапно ломается. Обычно кластеру требуется от 1 до 2 часов для завершения, но теперь он никогда не завершается и отключается / отключается при ежедневном отключении cron в полночь.

CollectorLog на главном узле обновляется сообщениями, указывающими на наличие какой-либо активности. Сообщения приходят примерно по одному каждые 20 секунд.

ProcLog на главном и рабочем узлах обновляется сообщениями примерно по одному каждые 20 секунд. «ни один из методов не определил, что процесс xxxx входит в контролируемое семейство .... создание снимка ... снимок завершен.»

В condor_status на главном узле все процессы отображаются как IDLE.

Как я могу отладить это?

Greg · Answer 1 · 24 марта 2020

Хм. HTCondor работает так, что планирует работу на машинах. Похоже, работа бездействует. Или, может быть, нет никаких рабочих мест. Итак, начнем там. Если вы запустите condor_q или, возможно, condor_q -all, в зависимости от версии condor, что это скажет о заданиях?

CondorHT - Шесть бездействующих процессоров, которые постоянно создают снимки. Что не так?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

CondorHT - Шесть бездействующих процессоров, которые постоянно создают снимки. Что не так?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы