Если вы выполняете сложное преобразование, счетчик операций правильный (он должен быть 2,5 N log2 (N) для вещественного преобразования), но формула GFLOP неверна.В параллельной многопроцессорной работе обычный расчет пропускной способности составляет
operation count / wall clock time
. В вашем случае, предполагая, что графические процессоры работают параллельно, либо измерьте время настенных часов (т.е. сколько времени заняла вся операция) длявремя выполнения или используйте это:
execution time = max(memcpyHtoD + kernel + memcpyDtoH times for row and col FFT for each GPU)
Как есть, ваш расчет представляет время последовательного выполнения.Если учесть накладные расходы из схемы multigpu, я ожидаю, что вычисленные значения производительности, которые вы получите, будут ниже , чем эквивалентное преобразование, выполненное на одном графическом процессоре.