Матричное умножение OpenMP противоинтуитивных результатов - PullRequest
0 голосов
/ 20 февраля 2020

В настоящее время я портирую некоторый код на OpenMP на моем рабочем месте. Одна из задач, которую я выполняю, - это выяснить, как ускорить умножение матриц для одного из наших приложений.

Матрицы хранятся в основном формате строк, поэтому A [i * cols + j] дает A_i_j элемент матрицы A.

Код выглядит следующим образом (раскомментируя прагму, раскомментируя код):

#include <omp.h>
#include <iostream>
#include <iomanip>
#include <stdio.h>

#define NUM_THREADS 8
#define size 500
#define num_iter 10

int main (int argc, char *argv[])
{
//    omp_set_num_threads(NUM_THREADS);

    int *A = new int [size*size];
    int *B = new int [size*size];
    int *C = new int [size*size];

    for (int i=0; i<size; i++)
    {
        for (int j=0; j<size; j++)
        {
            A[i*size+j] = j*1;
            B[i*size+j] = i*j+2;
            C[i*size+j] = 0;
        }
    }

    double total_time = 0;
    double start = 0;

    for (int t=0; t<num_iter; t++)
    {
        start = omp_get_wtime();

        int i, k;

//        #pragma omp parallel for  num_threads(10) private(i, k) collapse(2) schedule(dynamic)
        for (int j=0; j<size; j++)
        {
            for (i=0; i<size; i++)
            {
                for (k=0; k<size; k++)
                {
                    C[i*size+j] += A[i*size+k] * B[k*size+j];
                }
            }
        }

        total_time += omp_get_wtime() - start;
    }

    std::setprecision(5);
    std::cout << total_time/num_iter << std::endl;

    delete[] A;
    delete[] B;
    delete[] C;

    return 0;
}

Меня смущает следующее: почему динамическое c планирование быстрее, чем stati c планирование для этой задачи? Время выполнения и среднее значение показывают, что планирование stati c медленнее, что для меня немного нелогично, поскольку каждый поток выполняет одинаковый объем работы.

Кроме того, правильно ли я ускоряю свою матрицу код умножения?

1 Ответ

1 голос
/ 21 февраля 2020

Умножение параллельных матриц нетривиально (вы даже не задумывались о блокировке кэша?). Лучше всего использовать для этого библиотеку BLAS, а не писать ее самостоятельно. (Помните: «Лучший код - это код, который мне не нужно писать»).

Википедия: Основы c Подпрограммы линейной алгебры указывает на многие реализации, многие из которых ( включая Intel Math Kernel Library) имеют бесплатные лицензии.

...