У меня есть нечто очень похожее на код:
int k, no_streams = 4;
cudaStream_t stream[no_streams];
for(k = 0; k < no_streams; k++) cudaStreamCreate(&stream[k]);
cudaMalloc(&g_in, size1*no_streams);
cudaMalloc(&g_out, size2*no_streams);
for (k = 0; k < no_streams; k++)
cudaMemcpyAsync(g_in+k*size1/sizeof(float), h_ptr_in[k], size1, cudaMemcpyHostToDevice, stream[k]);
for (k = 0; k < no_streams; k++)
mykernel<<<dimGrid, dimBlock, 0, stream[k]>>>(g_in+k*size1/sizeof(float), g_out+k*size2/sizeof(float));
for (k = 0; k < no_streams; k++)
cudaMemcpyAsync(h_ptr_out[k], g_out+k*size2/sizeof(float), size2, cudaMemcpyDeviceToHost, stream[k]);
cudaThreadSynchronize();
cudaFree(g_in);
cudaFree(g_out);
'h_ptr_in' и 'h_ptr_out' - это массивы указателей, выделенных с помощью cudaMallocHost (без флагов).
Проблема в том, что потоки не перекрываются.
В визуальном профилировщике я вижу выполнение ядра из первого потока, перекрывающегося с копией (H2D) из второго потока, но больше ничего не перекрывается.
Возможно, у меня нет ресурсов для запуска двух ядер (я думаю, что да), но по крайней мере выполнение ядра и его копия должны перекрываться, верно?
И если я помещу все 3 (копия H2D, выполнение ядра, копия D2H) в один и тот же цикл for, ни один из них не будет перекрываться ...
Пожалуйста, ПОМОГИТЕ, что может быть причиной этого?
Я работаю на:
Ubuntu 10.04 x64
Устройство: «GeForce GTX 460»
(Версия драйвера CUDA: 3.20,
Версия CUDA Runtime: 3.20,
CUDA Capability Major / Minor номер версии: 2.1,
Параллельное копирование и исполнение: Да,
Параллельное выполнение ядра: Да)