PBSPro неверный результат записи QList в состоянии Q - PullRequest
0 голосов
/ 04 июля 2018

Мы используем qlist для разбиения прогонов на группы узлов, представленных определенными группами пользователей. Весь кластер тестируется с помощью задания chron, которое циклически перебирает все узлы, и для каждого задания должен быть указан связанный список qlist, или задание будет переведено в состояние Q с комментарием «Not Running: Недостаточное количество ресурса: Qlist». .

Было бы намного проще справиться с этой ошибкой пользователя с точки зрения теста, если задание перешло в состояние сбоя вместо зависания в состоянии Q. Кажется, что всякий раз, когда возникает ситуация с «недостаточным ресурсом», PBSPro не справляется с заданием. Почему состояние Q для того, что явно является неудачей, которая никогда не выйдет из Q? Есть ли способ изменить это поведение?

1 Ответ

0 голосов
/ 06 июля 2018

Коллега (Р. Пауэлл) объяснил, что PBSPro рассматривает все недостаточные проблемы с ресурсами как «исправимые» путем постановки в очередь задания (т. Е. Ожидания, когда ресурс станет доступным). В этом случае планировщик ожидает изменения записи Qlist для узлов, что не очень практично; но последовательное рассмотрение всех проблем с нехваткой ресурсов понятно.

Также было определено, что гораздо лучший подход к нашему тестированию, направленному на узлы, - запустить

pbsnodes [nodename] | grep resources_available.Qlist

для извлечения записи Qlist, которая будет применена при выполнении фактического тестового задания.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...