Condor работает не на всех доступных машинах / процессорах - PullRequest
0 голосов
/ 07 июня 2018

condor_status показывает 470 всего доступных, 298 невостребованных, но только 172 из моих заданий выполняются одновременно.Независимо от того, сколько раз я пытаюсь представить работу, я все равно получаю только 172. Если я меняю «сокеты», я получаю несколько больше или меньше, но никогда не приближаюсь к 470 доступным.

Мои требованияпросты, и каждая машина должна соответствовать этим критериям:

requirements = (((Target.OpSys=="WINDOWS") || (Target.OpSys=="WINNT61")) && (Target.Arch=="X86_64"))

Я проверил файлы журналов, и на всех моих прогонах, похоже, достаточно места на диске и памяти, и я не вижу ничего, что могло бы ограничиватьработы.Единственная подозрительная вещь для меня заключается в том, что для заданий, которые НЕ ЗАПУСКАЮТСЯ, выделено гораздо больше диска и памяти, чем используется, и кажется, что процессор никогда не используется.

(1) Normal termination (return value -1073741515)
    Usr 0 00:00:01, Sys 0 00:00:00  -  Run Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Run Local Usage
    Usr 0 00:00:01, Sys 0 00:00:00  -  Total Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Total Local Usage
1047  -  Run Bytes Sent By Job
92422376  -  Run Bytes Received By Job
1047  -  Total Bytes Sent By Job
92422376  -  Total Bytes Received By Job
Partitionable Resources :    Usage  Request Allocated
   Cpus                 :                 1         1
   Disk (KB)            :   428810   400000 117456696
   Memory (MB)          :       19      400      2042

Для заданий, которые ЗАПУСКАЮТСЯ,они обычно используют <400 МБ памяти и <400 000 КБ дискового пространства.Я попытался установить эти требования в файле отправки, но он, похоже, ничего не изменил. </p>

368  -  MemoryUsage of job (MB)
376144  -  ResidentSetSize of job (KB)

Есть какие-нибудь подсказки относительно того, что может ограничивать число процессов, которые я могу запустить?

1 Ответ

0 голосов
/ 21 июня 2018

С точки зрения Кондора, если вы видите такую ​​запись в журнале заданий

(1) Normal termination (return value -1073741515) 
    Usr 0 00:00:01, Sys 0 00:00:00  -  Run Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Run Local Usage
    Usr 0 00:00:01, Sys 0 00:00:00  -  Total Remote Usage
    Usr 0 00:00:00, Sys 0 00:00:00  -  Total Local Usage

Это означает, что Кондор запустил задание, и задание завершилось (это сообщение «нормальное завершение») с некоторымикод выходаВ этом случае код выхода -1073741515 в шестнадцатеричном формате 0xC0000135.Это специальный код выхода Windows, что означает отсутствие DLL.Нужно ли для этого приложения библиотека DLL, предварительно установленная на некоторых ваших компьютерах, но не на других?

...