Возможно, будет интересно следующее решение для выполнения 2d fftshift в CUDA:
#define IDX2R(i,j,N) (((i)*(N))+(j))
__global__ void fftshift_2D(double2 *data, int N1, int N2)
{
int i = threadIdx.y + blockDim.y * blockIdx.y;
int j = threadIdx.x + blockDim.x * blockIdx.x;
if (i < N1 && j < N2) {
double a = pow(-1.0, (i+j)&1);
data[IDX2R(i,j,N2)].x *= a;
data[IDX2R(i,j,N2)].y *= a;
}
}
Оно состоит в умножении матрицы, которая будет преобразована на шахматную доску 1
s и -1
s.что эквивалентно умножению на exp(-j*(n+m)*pi)
и, следовательно, сдвигам в обоих направлениях в сопряженной области.
Вы должны вызывать это ядро до и после применения CUFFT.
Одним из преимуществ является предотвращение движений / подкачки памяти.
УЛУЧШЕНИЕ В СКОРОСТИ
Следуя предложению, полученному на форуме NVIDIA , можно улучшить скорость, изменив инструкцию
double a = pow(-1.0,(i+j)&1);
на
double a = 1-2*((i+j)&1);
, чтобы избежать использования медленной рутины.