Поток CUDA - это просто очередь действий, выполняемых графическим процессором.Каждая функция через API может быть выполнена асинхронным способом - код процессора продолжается, пока инструкция ожидает выполнения независимо от кода хоста.Тем не менее, он выполняется синхронно относительно других инструкций в очереди / потоке.
Если вы хотите, чтобы несколько операций на GPU выполнялись асинхронно, вам нужно две или более очередей / потоков,Например, в руководстве CUDA есть глава о том, как смешать выполнение ядра (первый поток) с передачей памяти (второй поток).