Да, пример кода deviceQuery демонстрирует, как запросить у устройства информацию, такую как количество SM, которые можно использовать для оптимизации конфигурации запуска ядра.
Кроме того, CUDA предоставляет API занятости , который демонстрирует, как создать размеры блоков потоков, которые могут обеспечить наибольшую занятость.Существует также пример кода .
Если у вас есть 3 устройства с графическим процессором, и вы не используете в своем коде API cudaSetDevice()
для выбора конкретного графического процессора, тогда CUDAзапустит ваш код на первом графическом процессоре, перечисленном CUDA, который совпадает с первым графическим процессором, отображаемым в примере кода deviceQuery
.