Для тех функций cuda, которые будут вызываться только с устройства, имеет ли значение с точки зрения производительности, если мы объявим их __ global __ или __ device __?
Начиная с CUDA 4.1, функции __global__ нельзя вызывать из __device__ функций.
__global__
__device__