Как отлаживать функции MPI (MPICH) во внешних процессах? - PullRequest
0 голосов
/ 23 мая 2018

Я заменяю POSIX, который работает в MPI-функции, другими средствами, но у него возникают проблемы с отладкой внешнего процесса.Я изменяю функции из utils / sock / sock.c в библиотеке MPI (гидра)

HYDU_sock_write //changing the source code 
HYDU_sock_read  //changing the source code

HYD_status HYDU_sock_read(int fd, void *buf, int maxlen, int *recvd, int *closed,
                          enum HYDU_sock_comm_flag flag)
HYD_status HYDU_sock_write(int fd, const void *buf, int maxlen, int *sent, int *closed,
                           enum HYDU_sock_comm_flag flag) 

Например, когда я пытаюсь запустить тестовый исходный код ниже с node1 и node2 Я вижу, что инициированы два основных процесса, один из которых выполняется в node1, а другой - в node2.

int main(int argc, char** argv) {
  // Initialize the MPI environment
  MPI_Init(NULL, NULL);
  // Find out rank, size
  int world_rank;
  MPI_Comm_rank(MPI_COMM_WORLD, &world_rank);
  int world_size;
  MPI_Comm_size(MPI_COMM_WORLD, &world_size);

  // We are assuming at least 2 processes for this task
  if (world_size < 2) {
    fprintf(stderr, "World size must be greater than 1 for %s\n", argv[0]);
    MPI_Abort(MPI_COMM_WORLD, 1);
  }

  int number;
  if (world_rank == 0) {
    // If we are rank 0, set the number to -1 and send it to process 1
    number = -1;
    MPI_Send(&number, 1, MPI_INT, 1, 0, MPI_COMM_WORLD);
  } else if (world_rank == 1) {
    MPI_Recv(&number, 1, MPI_INT, 0, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE);
    printf("Process 1 received number %d from process 0\n", number);
  }
  MPI_Finalize();
}

Проблема в том, что я могу отладить первый процесс в узле 1, и я успешно изменил весь исходный код в функции MPI.Однако я не знаю, как я могу отладить второй процесс, который выполняется в node2 (внешний хост).

Мой вопрос: есть ли хороший способ отладки второго процесса, который выполняется на внешнем хосте?Я пробовал функцию printf, но она также работает только в первом процессе, который выполняется в node1 и ничего не показывает в node2.

...