устройства с вычислительными возможностями 2.x имеют поддержку поверхностной памяти . Взгляните на Раздел 3.2.4.2 Поверхностная память и Раздел 3.2.4.4 Когерентность чтения / записи в Руководстве по программированию Cuda C 3.2 или выше.
Другой способ - загрузить данные в пространство общей памяти в блоке с дополнительным заполнением в 1 пиксель. Однако производительность зависит от вычислений ядра. Если операций действительно мало, загрузка общей памяти не компенсируется.
Надеюсь, эта помощь.