HP C slurm - как заставить узел HP C одновременно выполнять сценарии bash нескольких заданий - PullRequest
0 голосов
/ 28 февраля 2020

Предположим, у меня есть кластер HP C с одним узлом (node_1), и я хочу одновременно отправлять и запускать 3 сценария bash заданий в node_1.

До сих пор, когда я отправляю работу на node_1, узел остается занятым до тех пор, пока работа не закончится.

Как я могу это сделать? Должен ли я указать какой-либо конкретный c аргумент в сценарии bash задания?

спасибо


Обновление

Ниже приведен пример сценария bash Я использую для отправки задания на HP C:

#!/bin/bash
#SBATCH --job-name=my_job
#SBATCH --partition=test
#SBATCH --nodelist=node_1
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=1
#SBATCH --time=01:00:00
#SBATCH --mem-per-cpu=8000
#SBATCH --output=1.out
#SBATCH --error=1.err

python /my/HPC/folder/script.py

Обновление

(base) [id@login_node ~]$ scontrol show node=node_1
NodeName=node_1 Arch=x86_64 CoresPerSocket=32 
   CPUAlloc=0 CPUTot=64 CPULoad=2.94
   AvailableFeatures=(null)
   ActiveFeatures=(null)
   Gres=(null)
   NodeAddr=node_1 NodeHostName=node_1 Version=18.08
   OS=Linux 4.20.0-1.el7.elrepo.x86_64 #1 SMP Sun Dec 23 20:11:51 EST 2018 
   RealMemory=128757 AllocMem=0 FreeMem=111815 Sockets=1 Boards=1
   State=IDLE ThreadsPerCore=2 TmpDisk=945178 Weight=1 Owner=N/A MCS_label=N/A
   Partitions=test 
   BootTime=2019-12-09T14:09:25 SlurmdStartTime=2020-02-18T03:45:14
   CfgTRES=cpu=64,mem=128757M,billing=64
   AllocTRES=
   CapWatts=n/a
   CurrentWatts=0 LowestJoules=0 ConsumedJoules=0
   ExtSensorsJoules=n/s ExtSensorsWatts=0 ExtSensorsTemp=n/s

1 Ответ

0 голосов
/ 03 марта 2020

Вам необходимо изменить тип потребляемых ресурсов с узлов на ядер в слерме.

Добавьте это в ваш slurm.conf файл

SelectType=select/cons_res
SelectTypeParameters=CR_Core

SelectType: определяет, будут ли ресурсы ЦП выделяться для заданий и этапов задания в единицах целых узлов или как расходуемые ресурсы (сокеты, ядра или потоки).

SelectTypeParameters: определяет тип расходуемого ресурса и управляет другими аспектами распределения ресурсов процессора с помощью плагина select. Ссылка

Кроме того, описание узла также должно учитывать это:

NodeName=<somename> NodeAddr=<someaddress> CPUs=16 Sockets=2 CoresPerSocket=4 ThreadsPerCore=2 RealMemory=12005 State=UNKNOWN

См. Также serverfault

...