Сначала я хочу отправить работу эффективно.
Итак, я создал bash сценарий задания и мета-скрипт, как показано ниже.
Сначала задание. sh
#!/bin/sh -l
#SBATCH -J test
#SBATCH -p bigmem
#SBATCH -N 4
#SBATCH --ntasks-per-node 1
#SBATCH -o logs/%j_%x.out
#SBATCH -e logs/%j_%x.err
#SBATCH --time 1:00:00
module load gnu/8.2.0 openmpi/3.1.3_gnu8.2 anaconda/2.7
echo "START"; date
mpirun --n 120 ./e-opt -i input_rev.i \
Mesh/file/file="${mesh_fpath}" \
GlobalParams/s0="${act}" \
Outputs/file_base="${outputs_fbase}"
echo "END"; date
Во-вторых, мета. sh
mapfile -t activities < activities.txt
mesh_path="inputs/*.inp"
mesh_files=($mesh_path)
output_path="outputs/test/"
for ((i=0;i<${#activities[@]};i++));
do
mesh_fname="${mesh_files[i]}"
fbasename="$(basename $mesh_fname)"
output_fbase="${output_path}${fbasename%.*}"
sbatch --export=act="${activities[i]}"\
mesh_fpath="${mesh_files[i]}"\
outputs_fbase="${output_fbase}" job.sh
done
Я думал, что это не проблема, но когда я отправляю работу. Появилось сообщение об ошибке, подобное этому.
--------------------------------------------------------------------------
An ORTE daemon has unexpectedly failed after launch and before
communicating back to mpirun. This could be caused by a number
of factors, including an inability to create a connection back
to mpirun due to a lack of common network interfaces and/or no
route found between them. Please check network connectivity
(including firewalls and network routing requirements).
--------------------------------------------------------------------------
Что я пропустил? Пожалуйста, дайте мне несколько советов. Спасибо!