Вы действительно ищете «планировщика заданий». Узлы «статически» зарегистрированы в планировщике заданий. Это позволяет планировщику заданий проверять узлы и определять количество ядер, ОЗУ, доступное место на чистом диске, ОС и многое другое. Вся эта информация может быть использована для выбора необходимых ресурсов для работы.
Планировщики заданий также обеспечивают базовый мониторинг работоспособности кластера. Отключенные узлы автоматически удаляются из списка доступных узлов. Узлы, на которых выполняются задания (через планировщик), также удаляются из списка доступных узлов.
SLURM - менеджер ресурсов и планировщик заданий, которые вы можете рассмотреть. SLURM имеет интеграционные хуки для LSF и PBSPro. Некоторые реализации MPI "SLURM-осведомлены" и могут использовать / устанавливать переменные среды, которые позволят заданию MPI выполняться на узлах, выделенных ему SLURM.