Когда я запускаю задание с sbatch
в многоузловой системе, некоторые процессы запускаются на задействованных узлах.
Как я могу узнать процессы (ID процесса), которые выполняются на этих узлах, которые были запущены из-за запуска sbatch
?
Я проверил документацию по slurm, но не нашел любая команда, которая показывает вовлеченные процессы (например, scontrol
или sstat
).
Идея состоит в том, чтобы найти идентификатор процесса, а затем использовать инструменты Linux для отладки процессов, которые «зависли» (т.е. нет вывода et c), и, возможно, выяснить, что делает этот конкретный процесс.