Я новичок в программировании CUDA, но мне нужно использовать его в сложном проекте.Мне действительно нужна помощь.
У меня вопрос: хочу ли я выполнить дочернее ядро 256 раз одновременно, что я могу сделать с динамическим параллелизмом?
Я читаю блог NVIDIA и там написано:
По умолчанию сетки, запускаемые в блоке потоков, выполняются последовательно: следующая сетка начинает выполняться только после завершения предыдущей.Это происходит, даже если сетки запускаются разными потоками внутри блока.
Итак, моя идея - установить размер блока (1,1) и размер сетки (256,1) для родительского ядра, и яможет запустить дочернее ядро одновременно с 256 потоками в разных блоках.Это будет очень неэффективно?Какое решение лучше?