Настройка Slurm: Ошибка подключения сокета потока Slurm - PullRequest
0 голосов
/ 29 января 2019

Я пытаюсь настроить новый кластер с slurm.Я настроил клиента и управляющую машину.(Я новичок в этом .....)

  1. Когда я набираю sinfo -vvv с управляющего устройства, он сообщает

"sinfo: debug2: slurm_connect не удалось: соединение отклонено sinfo: debug2: ошибка при подключении сокета потока slurm на 192.168.155.142:6817: соединение отклонено "

Мой slurm настроен на использование порта 6817 (полная конфигурация доступна здесь https://pastebin.com/X4yDe99z

SlurmctldPort=6817

Порт открыт (я также пытался отключить UFW)

6817 (v6) ALLOW Anywhere (v6)

Когда я пытаюсь slurmctld -Dvvv , он показывает эту ошибку

slurmctld: error: this host (xxxx/xxx) not a valid controller (gaia or (null))

Мой файл / etc / hosts 127.0.0.1 localhost 192.168.155.142 gaia

1 Ответ

0 голосов
/ 30 января 2019

Значение параметра ControlMachine в slurm.conf, машина, на которой вы запускаете slurmctld, должно быть точным значением hostname -s на этой машине для запуска демона.

Кажется, hostname -s на вашем компьютере не выводит gaia.Замените gaia на то, что скрыто за xxxx/xxx.

...