OpenMPI не убивает другое звание при падении одного ранга - PullRequest
0 голосов
/ 10 мая 2018

У меня есть пример кода:

#include <mpi.h>
#include <stdio.h>
#include <stdlib.h>
#include <signal.h>

int main(int argc, char** argv) {
  // Initialize the MPI environment
  MPI_Init(&argc, &argv);
  // Find out rank, size
  int world_rank;
  MPI_Comm_rank(MPI_COMM_WORLD, &world_rank);
  int world_size;
  MPI_Comm_size(MPI_COMM_WORLD, &world_size);

  // We are assuming at least 2 processes for this task
  if (world_size < 2) {
    fprintf(stderr, "World size must be greater than 1 for %s\n", argv[0]);
    MPI_Abort(MPI_COMM_WORLD, 1);
  }

  int number;
  if (world_rank == 1) {
    number = -1;
    MPI_Send(&number, 1, MPI_INT, 0, 0, MPI_COMM_WORLD);
    raise(SIGSEGV);
  } else if (world_rank == 0) {
    MPI_Recv(&number, 1, MPI_INT, 1, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
    printf("Process 0 received number %d from process 1\n", number);
  }

  printf("rank %d finalize\n", world_rank);
  MPI_Finalize();
}

Ранг 1 поднимает сигнал для имитации сбоя.После выхода из raise() ранга 1.Но ранг 0 все еще печатает rank 0 finalize.

Есть ли способ узнать на ранге 0, происходит ли сбой ранга 1 в этом случае?Можно ли позволить mpirun убить ранг 0 при падении ранга 1?

1 Ответ

0 голосов
/ 10 мая 2018

Обратите внимание, что в вашей проблеме есть состояние гонки, и mpirun может не хватить времени, чтобы заметить сбой задачи 1 и уничтожить задачу 0 до того, как сообщение будет напечатано.

Вы можете принудительно убить Open MPIвсе задачи, как только обнаружен сбой, с опцией ниже

mpirun -mca orte_abort_on_non_zero_status 1 ...
...