Крутящий момент PBS: как решить проблему отходов сердечника в параллельных задачах, которые проводят разное время друг от друга? - PullRequest
0 голосов
/ 16 ноября 2018

Я выполняю параллельные задачи MATLAB или python в кластере, управляемом крутящим моментом PBS.Неловкая ситуация сейчас заключается в том, что PBS думает, что я использую 56 ядер, но это первое, и в итоге у меня только 7 самых сложных задач.49 ядер потрачены впустую.

Мои параллельные задачи занимали совсем другое время, потому что они выполняли поиск по разным параметрам модели, я не знал, какая задача потратит сколько времени, прежде чем попробую.В начале были использованы все ядра, но вскоре выполнялись только самые сложные задачи.Так как вся задача еще не была завершена, крутящий момент PBS все еще думал, что я использую полные 56 ядер и предотвращаю запуск новых задач, но на самом деле большинство ядер простаивают.Я хочу, чтобы PBS обнаружил это и использовал незанятые ядра для запуска новых задач.

Поэтому мой вопрос заключается в том, есть ли некоторые параметры крутящего момента PBS, которые могут автоматически обнаруживать реальные ядра, используемые в задаче, и распределять действительно незанятыеядра для новых задач?

#PBS -S /bin/sh
#PBS -N alps_task
#PBS -o stdout
#PBS -e stderr
#PBS -l nodes=1:ppn=56
#PBS -q batch
#PBS -l walltime=1000:00:00
#HPC -x local
cd /tmp/$PBS_O_WORKDIR
alpspython spin_half_correlation.py 2>&1 > tasklog.log

1 Ответ

0 голосов
/ 23 ноября 2018

Короткий ответ на ваш вопрос: Нет : PBS не может вернуть неиспользованные ресурсы, выделенные для работы.

Поскольку ваши вычисления, по сути, представляют собой набор независимых задач, что выможет и, вероятно, должен сделать, это попытаться разделить свою работу на 56 независимых заданий, каждое из которых выполняет отдельную комбинацию параметров модели, и когда все задания будут завершены, вы можете запустить дополнительное задание для сбора и обобщения результатов.Это хорошо поддерживаемый способ ведения дел.PBS предоставляет некоторые полезные функции для этого типа заданий, такие как задания массива и зависимости задания .

...