Согласно спецификациям , ваше устройство имеет 192 "ядра процессора" - это , а не , как SM. В CUDA SM - это многопроцессорный процессор, который выполняет несколько потоков в режиме блокировки (8 для устройств семейства 1.3, больше для более поздних устройств).
Как указал shoosh, количество используемых потоков является функцией вашего вызова ядра.
Как правило, чтобы добиться хорошей производительности в CUDA, вы должны запускать гораздо больше потоков, чем у ядер процессоров CUDA - это скрывает задержку ваших обращений к глобальной памяти.