Программа зависает с openmpi - PullRequest
0 голосов
/ 06 марта 2019

Я выполняю параллельное задание, используя openmpi 2.0.2 , я всегда получаю следующие сообщения в выходном файле:

Warning: Permanently added the RSA host key for IP address '10.4.12.75' to the list of known hosts.^M
--------------------------------------------------------------------------
No OpenFabrics connection schemes reported that they were able to be
used on a specific port.  As such, the openib BTL (OpenFabrics
support) will be disabled for this port.

  Local host:           hpc488
  Local device:         mlx4_0
  Local port:           2
  CPCs attempted:       rdmacm, udcm
----------------------------------------

, за которым следует ошибка сообщение: -

[hpc488:45221] 39 more processes have sent help message help-mpi-btl-openib-cpc-base.txt / no cpcs for port
[hpc488:45221] Set MCA parameter "orte_base_help_aggregate" to 0 to see all help / error messages

Используемый мной скрипт выглядит следующим образом: -

#!/bin/bash
#PBS -N test
#PBS -q medium
#PBS -l nodes=4:ppn=20
cd $PBS_O_WORKDIR
export I_MPI_FABRICS shm:dapl
export I_MPI_MPD_TMPDIR /scratch/$USER
mpirun -machinefile $PBS_NODEFILE -np 80 ~/test/cp2k-5.1.0/exe/local/cp2k.popt -i ATP-1.restart >& out

Программа также зависает через некоторое время, например: -

Выход в начале: -

          ----------------------------------- OT ---------------------------------------

  Step     Update method      Time    Convergence         Total energy    

    Change
      ------------------------------------------------------------------------------
         1 OT DIIS     0.80E-01   54.3     0.00002715     -8803.0497995708 -8.80E+03
         2 OT DIIS     0.80E-01   18.8     0.00005469     -8803.0494664995  3.33E-04
         3 OT DIIS     0.80E-01   19.0     0.00001678     -8803.0507564351 -1.29E-03
         4 OT DIIS     0.80E-01   18.9     0.00001380     -8803.0508931318 -1.37E-04
         5 OT DIIS     0.80E-01   19.0     0.00000619     -8803.0510930570 -2.00E-04

      *** SCF run converged in     5 steps ***

Выход через некоторое время: -

 ----------------------------------- OT ---------------------------------------

  Step     Update method      Time    Convergence         Total energy    Change
  ------------------------------------------------------------------------------
     1 OT DIIS     0.80E-01  543.5     0.00005264     -8803.0309338155 -8.80E+03
     2 OT DIIS     0.80E-01  129.1     0.00017122     -8803.0214844607  9.45E-03
     3 OT DIIS     0.80E-01   97.0     0.00001549     -8803.0324199550 -1.09E-02
     4 OT DIIS     0.80E-01  104.3     0.00001280     -8803.0325293227 -1.09E-04
     5 OT DIIS     0.80E-01  108.0     0.00000682     -8803.0327023147 -1.73E-04

  *** SCF run converged in     5 steps ***

У кого-нибудь есть идея, что происходит?Буду очень признателен за помощь.

...