Я не мог отправить работу на исполняющий узел в кондоре, кроме центрального менеджера - PullRequest
0 голосов
/ 27 февраля 2012

У меня есть пул кондоров, состоящий из 4 выделенных машин, один из которых настроен как центральный менеджер, отправляющий и исполняющий узлы, а остальные три настроены на выполнение узлов. Я использовал CentOS 5.4 в качестве ОС для всех машин.Моя проблема заключается в том, что когда я отправляю задание от центрального менеджера, оно работает только на центральном менеджере, поэтому, когда я указываю в файле JDL, что задание должно выполняться на любом компьютере, кроме центрального менеджера, задание остается в удержании и не запускается.Когда я набираю condor_status, появляются все узлы.Я оставляю демон MASTER, STARTD в списке демонов для исполняющих узлов.Кто-нибудь сталкивался с этой проблемой?

1 Ответ

0 голосов
/ 30 марта 2012

Недостаточно информации, чтобы ответить на ваш вопрос, но первое, что нужно сделать, - это запустить condor_q -analyze <jobid> и посмотреть, что он вам скажет.См. Руководство Condor Раздел 2.6.5: Почему задание не выполняется?

Одной из возможных причин является то, что вы не говорите Condor передавать файлы ввода / вывода для вас, иваши узлы имеют разные «домены файловой системы», поэтому Condor не может найти хост, который разделяет общую файловую систему с вашим хостом отправки.

...