У меня Nvidia GeForce GTX 1080 с 20 потоковыми мультипроцессорами. Я хочу портировать систему обнаружения столкновений, используя CUDA, которая имеет несколько ветвей в коде в зависимости от типа объектов, находящихся в столкновении (например: код для проверки того, находятся ли сфера и цилиндр в столкновении, отличается от кода для проверки столкновений между сфера и другая сфера). Чтобы повысить производительность и уменьшить расхождение кода, я думал о параллельном запуске каждой из этих веток в отдельных ядрах, поскольку мое устройство поддерживает параллельное выполнение ядра. Есть ли способ назначить конкретное c количество ядер CUDA каждому ядру в этом случае?
Я попытался выяснить, как это сделать, на страницах руководства разработчика CUDA и также в Stack Overflow, но не смог найти способ адаптировать, какие ядра назначены каким ядрам.
Надеюсь, кто-то, кто пробовал что-то подобное, может направить меня или направить меня в правильном направлении. Большое спасибо заранее!