Ошибка Mpi Bcast при использовании Calcul Canada - PullRequest
0 голосов
/ 29 мая 2020

Я пытаюсь выполнить расчет на удаленном сайте calc canada из моего MA C. это запуск входного файла. sh Я использую: #!/bin/sh

#SBATCH --nodes=4

#SBATCH --ntasks-per-node=32
#SBATCH --time=24:00:00
#SBATCH --mem-per-cpu=2000M
#SBATCH --account=def-jkopysci
module load quantumespresso/6.4.1
srun -n 128 pw.x -i < espresso.scf.in > sample.out`

Через несколько минут он выводит slurm вместе с выходным файлом. Выходной файл хороший, но неполный (происходит несколько итераций, но затем он останавливается). Вот что содержится в slurm:

`    [blg7239:222904] *** An error occurred in MPI_Bcast
[blg7239:222904] *** reported by process [47353251107131,62]
[blg7239:222904] *** on communicator MPI COMMUNICATOR 29 SPLIT FROM 26
[blg7239:222904] *** MPI_ERR_TRUNCATE: message truncated
[blg7239:222904] *** MPI_ERRORS_ARE_FATAL (processes in this communicator will now abort,
[blg7239:222904] ***    and potentially your MPI job)
srun: Job step aborted: Waiting up to 62 seconds for job step to finish.
slurmstepd: error: *** STEP 8210518.0 ON blg7131 CANCELLED AT 2020-05-28T21:37:12 ***
srun: error: blg9414: tasks 64-95: Killed
srun: error: blg9415: tasks 96-127: Killed
srun: error: blg7131: tasks 0-31: Killed
srun: error: blg7239: tasks 32-61,63: Killed
srun: error: blg7239: task 62: Exited with exit code 15`

почему это происходит и как я могу это исправить? Пожалуйста, помогите !!!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...