В настоящее время я портирую некоторый код на OpenMP на моем рабочем месте. Одна из задач, которую я выполняю, - это выяснить, как ускорить умножение матриц для одного из наших приложений.
Матрицы хранятся в основном формате строк, поэтому A [i * cols + j] дает A_i_j элемент матрицы A.
Код выглядит следующим образом (раскомментируя прагму, раскомментируя код):
#include <omp.h>
#include <iostream>
#include <iomanip>
#include <stdio.h>
#define NUM_THREADS 8
#define size 500
#define num_iter 10
int main (int argc, char *argv[])
{
// omp_set_num_threads(NUM_THREADS);
int *A = new int [size*size];
int *B = new int [size*size];
int *C = new int [size*size];
for (int i=0; i<size; i++)
{
for (int j=0; j<size; j++)
{
A[i*size+j] = j*1;
B[i*size+j] = i*j+2;
C[i*size+j] = 0;
}
}
double total_time = 0;
double start = 0;
for (int t=0; t<num_iter; t++)
{
start = omp_get_wtime();
int i, k;
// #pragma omp parallel for num_threads(10) private(i, k) collapse(2) schedule(dynamic)
for (int j=0; j<size; j++)
{
for (i=0; i<size; i++)
{
for (k=0; k<size; k++)
{
C[i*size+j] += A[i*size+k] * B[k*size+j];
}
}
}
total_time += omp_get_wtime() - start;
}
std::setprecision(5);
std::cout << total_time/num_iter << std::endl;
delete[] A;
delete[] B;
delete[] C;
return 0;
}
Меня смущает следующее: почему динамическое c планирование быстрее, чем stati c планирование для этой задачи? Время выполнения и среднее значение показывают, что планирование stati c медленнее, что для меня немного нелогично, поскольку каждый поток выполняет одинаковый объем работы.
Кроме того, правильно ли я ускоряю свою матрицу код умножения?