Предположим, я объявляю локальную переменную в функции ядра CUDA для каждого потока: float f = ...;...
Я только нашел замечание, что локальная память медленнее, чем память регистров, типа два на поток....