Открытая программа MPI не работает при распределении процессов между несколькими хостами - PullRequest
3 голосов
/ 03 августа 2011

Моя тестовая программа работает нормально, когда я запускаю несколько процессов на одном компьютере.

$ ./mpirun -np 2 ./mpi-test
Hi I'm A:0
Hi I'm A:1
A:1 sending 11...
A:1 sent 11
A:0 received 11 from 1
all workers checked in!

Когда я запускаю одну и ту же программу на нескольких хостах, процесс запускается на каждом хосте, но MPI_Send никогда не возвращается.

$ ./mpirun -np 2 -host A,B ./mpi-test
Hi I'm A:0
Hi I'm B:1
B:1 sending 11...

Я пробовал пару других примеров MPI-программ, которые нашел, и столкнулся с той же проблемой. Есть идеи, что не так?

РЕДАКТИРОВАТЬ: это также работает на удаленной машине, если все процессы создаются на этой машине.

Код:

#include <mpi.h>

int main(int argc, char** argv)
{
    MPI::Init();
    int rank = MPI::COMM_WORLD.Get_rank();
    int size = MPI::COMM_WORLD.Get_size();
    char name[256];
    int len;
    MPI::Get_processor_name(name, len);

    printf("Hi I'm %s:%d\n", name, rank);

    if (rank == 0) {
        while (size > 1) {
            int val;
            MPI::Status status;
            MPI::COMM_WORLD.Recv(&val, 1, MPI::INT, MPI::ANY_SOURCE, MPI::ANY_TAG, status);
            int source = status.Get_source();
            printf("%s:0 received %d from %d\n", name, val, source);
            size--;
        }
        printf("all workers checked in!\n");
    }
    else {
        int val = rank + 10;
        printf("%s:%d sending %d...\n", name, rank, val);
        MPI::COMM_WORLD.Send(&val, 1, MPI::INT, 0, 0);
        printf("%s:%d sent %d\n", name, rank, val);
    }
    MPI::Finalize();

    return 0;
}

РЕДАКТИРОВАТЬ: ompi_info

$ ./mpirun --bynode -host A,B --tag-output ompi_info -v ompi full --parsable
[1,0]<stdout>:package:Open MPI user@A Distribution
[1,0]<stdout>:ompi:version:full:1.4.3
[1,0]<stdout>:ompi:version:svn:r23834
[1,0]<stdout>:ompi:version:release_date:Oct 05, 2010
[1,0]<stdout>:orte:version:full:1.4.3
[1,0]<stdout>:orte:version:svn:r23834
[1,0]<stdout>:orte:version:release_date:Oct 05, 2010
[1,0]<stdout>:opal:version:full:1.4.3
[1,0]<stdout>:opal:version:svn:r23834
[1,0]<stdout>:opal:version:release_date:Oct 05, 2010
[1,0]<stdout>:ident:1.4.3
[1,1]<stdout>:package:Open MPI user@B Distribution
[1,1]<stdout>:ompi:version:full:1.4.3
[1,1]<stdout>:ompi:version:svn:r23834
[1,1]<stdout>:ompi:version:release_date:Oct 05, 2010
[1,1]<stdout>:orte:version:full:1.4.3
[1,1]<stdout>:orte:version:svn:r23834
[1,1]<stdout>:orte:version:release_date:Oct 05, 2010
[1,1]<stdout>:opal:version:full:1.4.3
[1,1]<stdout>:opal:version:svn:r23834
[1,1]<stdout>:opal:version:release_date:Oct 05, 2010
[1,1]<stdout>:ident:1.4.3

Ответы [ 2 ]

1 голос
/ 05 августа 2011

Я закончил тем, что обновил до 1.5.3 на A и установил 1.5.3 на C. Я не уверен, было ли это обновление, или проблема с B, но теперь все работает.

Для справки:

  • исходная настройка: узел A (arch linux, Open MPI 1.4.3), узел B (ubuntu, Open MPI 1.4.3)
  • рабочая настройка: узел A (arch linux, Open MPI 1.5.3), узел C (arch linux, Открытый MPI 1.5.3)
0 голосов
/ 03 августа 2011

Обычная причина этого заключается в том, что на удаленном хосте что-то настроено неправильно;это могут быть проблемы с входом в систему / сетью, или что на удаленном хосте не найдены библиотеки / исполняемые файлы MPI или сама программа.

Что произойдет, если вы попытаетесь

mpirun -np 2 -host A,B  hostname

?

...