Процесс VM ReadV сбой после определенного числа IOV c в MPI - PullRequest
1 голос
/ 03 апреля 2020

Я использую process_vm_readv для получения данных от одного процесса к другому в MPI.
Я обнаружил, что программа начнет получать tra sh после определенного числа iove c (в данном случае 1024), переданного process_vm_readv.
Я не был уверен, что происходит, ядру не хватает памяти? Или что-то не так в моем коде.
Или у process_vm_readv есть верхний предел для iove c?
Я самостоятельно сгенерировал векторный шаблон (8 байтов из каждых 16 байтов) для iove c.
И программа будет работать до тех пор, пока 1 ГБ не заполнится этим шаблоном в обоих потоках.
sbuf и rbuf были выделены для каждого 1 ГБ памяти.
И программа находится на машине с 24 ГБ +.

void do_test( int slen, int rlen, int scount, int rcount, void *sbuf, void *rbuf ){
int rank, err;
double timers[REP];
MPI_Win win;
pid_t pid;

MPI_Comm_rank( MPI_COMM_WORLD, &rank );
if( rank == 0 ){
    MPI_Win_create( NULL, 0, 1, MPI_INFO_NULL, MPI_COMM_WORLD, &win );

    int send_iovcnt;
    struct iovec *send_iov;

    struct iovec *iov = malloc( sizeof(struct iovec) * scount );
    for( int p = 0; p < scount; p++ ){
        iov[p].iov_base = (char*)rbuf + p * 16;
        iov[p].iov_len = 8;
    }

    MPI_Recv( &pid, sizeof(pid_t), MPI_BYTE, 1, 0, MPI_COMM_WORLD, MPI_STATUS_IGNORE );
    MPI_Recv( &send_iovcnt, 1, MPI_INT, 1, 1, MPI_COMM_WORLD, MPI_STATUS_IGNORE );

    send_iov = malloc( sizeof(struct iovec) * send_iovcnt );

    MPI_Recv( send_iov, sizeof(struct iovec) * send_iovcnt, MPI_BYTE, 1, 2, MPI_COMM_WORLD, MPI_STATUS_IGNORE );
    for( int i = 0; i < REP; i++ ){
        cache_flush();
        timers[i] = MPI_Wtime();
        MPI_Win_fence( 0, win );
        process_vm_readv( pid, iov, send_iovcnt, send_iov, send_iovcnt, 0 );
        MPI_Win_fence( 0, win );
        cache_flush();
        timers[i] = MPI_Wtime() - timers[i];
    }
    free(send_iov);
    free(iov);

    print_result( 8 * scount, REP, timers );
} else if( rank == 1 ){
    MPI_Win_create( sbuf, slen, 1, MPI_INFO_NULL, MPI_COMM_WORLD, &win );

    struct iovec *iov = malloc( sizeof(struct iovec) * rcount );

    for( int p = 0; p < rcount; p++ ){
        iov[p].iov_base = (char*)sbuf + p * 16;
        iov[p].iov_base = 8;
    }

    pid = getpid();
    MPI_Send( &pid, sizeof(pid_t), MPI_BYTE, 0, 0, MPI_COMM_WORLD );
    MPI_Send( &rcount, 1, MPI_INT, 0, 1, MPI_COMM_WORLD );
    MPI_Send( iov, rcount * sizeof(struct iovec), MPI_BYTE, 0, 2, MPI_COMM_WORLD );
    for( int i = 0; i < REP; i++ ){
        cache_flush();
        MPI_Win_fence( 0, win );
        MPI_Win_fence( 0, win );
    }
    free(iov);

}

1 Ответ

0 голосов
/ 03 апреля 2020

На странице руководства в process_vm_readv(2) содержится следующий текст:

Значения, указанные в аргументах liovcnt и riovcnt, должны быть меньше или равно IOV_MAX (определено в <limits.h> или доступно через вызов sysconf(_SC_IOV_MAX)).

В моей системе Linux значение IOV_MAX (в конечном итоге определено в /usr/include/x86_64-linux-gnu/bits/uio_lim.h ) составляет 1024.

...