Чтобы скрыть задержку при вызове ядер cuda, есть ли поддержка для вызова последовательности ядер без необходимости возврата к ЦП для вызова следующего ядра?Таким образом, последовательность ядер может быть выведена из очереди на устройстве с графическим процессором.Это кажется важным при работе с более крупными ядрами, где вы, возможно, достигаете предела размера команд и хотите создать больше модульности, чтобы уменьшить общий размер команд.(Там, где встраивание может быть не очень хорошим решением)
(Если это важно, я использую JCuda, если это создает ограничение в достижении этой функциональности, пожалуйста, дайте мне знать.)