Я хочу перенести мой код на CUDA.Основная вычислительная часть содержит 3 для вложенных циклов:
for (int i=0; i< Nx;i++){
for (int j=0;j<Ncontains[i];j++){
for (int k=0;k< totalVoxels;k++){
.......
}
}
}
Как я могу перевести это в мое ядро CUDA?С двумя циклами for я мог бы сделать что-то вроде:
int n= blockIdy.y * blockDim.y + threadIdx.y;
int i= blockIdx.x * blockDim.x + threadIdx.x;
Но как мне изначально это запустить?