И мой frontEnd, и вычислительный узел имеют одинаковые UID
и GID
, но у меня одинаковая ошибка в slurm uid, и gid должен быть одинаковым для всего кластера .Как я могу решить эту проблему?
Я построил и frontEnd, и вычислительный узел следующим образом. Может ли это быть причиной, по которой я также собираю вычислительный узел с флагом --enable-front-end
?
git clone https://github.com/SchedMD/slurm
cd slurm
./configure --enable-debug --enable-front-end
sudo make install
способ запуска узла frontEnd:
sudo killall slurmctld slurmdbd slurmd
sudo munged -f
sudo /etc/init.d/munge start
sudo slurmdbd &
sudo slurmctld -cDvvvvvv
способ запуска узла вычисления:
sudo killall slurmd
sudo munged -f
sudo /etc/init.d/munge start
sudo slurmd -Dvvvvv
Мой frontEnd:
$id
uid=1000(alper) gid=1003(alper) groups=1003(alper),27(sudo),999(docker)
Мой вычислительный узел: (я обновил его gid до 1001. Я не уверен, видит ли slurm свою обновленную версию или нет.)
$id
uid=1000(alper) gid=1003(alper) groups=1003(alper),4(adm),30(dip),44(video),46(plugdev),1000(google-sudoers)
Журнал от slurmd:
slurmd: debug2: got this type of message 4005
slurmd: debug2: Processing RPC: REQUEST_BATCH_JOB_LAUNCH
slurmd: error: Security violation, batch launch RPC from uid 1000
slurmd: debug3: in the service_connection
slurmd: debug2: got this type of message 6011
slurmd: debug2: Processing RPC: REQUEST_TERMINATE_JOB
slurmd: debug: _rpc_terminate_job, uid = 1000
slurmd: error: Security violation: kill_job(26) from uid 1000
slurmd: debug3: in the service_connection
slurmd: debug3: in the service_connection
slurmd: debug2: got this type of message 6011
slurmd: debug2: Processing RPC: REQUEST_TERMINATE_JOB
slurmd: debug: _rpc_terminate_job, uid = 1000
slurmd: error: Security violation: kill_job(24) from uid 1000
slurmd: debug2: got this type of message 6011
slurmd: debug2: Processing RPC: REQUEST_TERMINATE_JOB
slurmd: debug: _rpc_terminate_job, uid = 1000
slurmd: error: Security violation: kill_job(25) from uid 1000
slurmd: debug3: in the service_connection
slurmd: debug2: got this type of message 1008
slurmd: error: Security violation, ping RPC from uid 1000
slurmd: error: Do you have SlurmUser configured as uid 1000?
Журнал от slurmctld:
slurmctld: debug2: node_did_resp instance-3
slurmctld: debug2: agent maximum delay 1 seconds
slurmctld: debug2: Tree head got back 1
slurmctld: agent/is_node_resp: node:instance-3 RPC:REQUEST_TERMINATE_JOB : Invalid user id
slurmctld: debug: node_not_resp: node instance-3 responded since msg sent