Я могу отправлять задания с синтаксисом qsub -t 1-50:5 foo.sh
, и 10 экземпляров будут раскручиваться, и я могу соответственно увеличивать задания, и все будет работать достаточно хорошо. Однако, когда я запускаю qsub -t 1-50 -tc 10 foo.sh
, я вижу 50 узлов, но одновременно только 10 активных заданий. Узлы остаются в живых, пока все задания не будут завершены. По сути, дешевле просто не использовать флаг -tc
.
Это недоразумение с моей стороны? Это то, что я плохо настроил на кластере? Что происходит? Как получить поведение, которое я ищу здесь?
Некоторые особенности: Кластер работает на AWS с использованием Parallel-Cluster с планировщиком SGE. Кажется, что я не вижу каких-либо конфигураций, которые могли бы облегчить эту проблему.
[править] Просто для пояснения: мне бы хотелось, чтобы функциональность очереди -tc 10
(выполнялось только 10 заданий за раз , и делайте их по порядку) но я бы хотел, чтобы он раскручивал только 10 экземпляров. Не нужно иметь 1000 экземпляров, если только 10 будут работать над чем-то, верно?
[edit2] Кроме того, если кто-нибудь знает лучший планировщик, который будет делать то, что я хочу, то относительно легко настроен и доступен в параллельном кластере (например, slurm, вращающий момент и aws партия), пожалуйста, дайте мне знать.
Я ценю любую помощь, которую я могу получить здесь.