Да.Доступ к памяти всегда осуществляется кусками по 32, 64 или 128 байт, независимо от того, сколько вам на самом деле нужно из этой строки памяти.
Обновление:
Вопрос: Как это объясняет 64 байта для 16-битных данных?
Значение: 32 байта для 1-байтовых слов, 64 байта для 2-байтовых слов и 128 байтов для старших байтов - это размер максимальный доступного сегмента.Например, если каждый поток извлекает 2-байтовое слово и ваш доступ идеально выровнен, доступ к памяти будет уменьшен для использования только 32-байтового извлечения строки.
Проверьтераздел G.3.2.2 «Устройства вычислительных возможностей 1.2 и 1.3» «Руководства по программированию CUDA (v3.2)».
Я вижу, вы использовали CUDA PG v. 2.0 (и, возможно, компилятор CUDA 2.0).С тех пор было много улучшений (в частности: исправление ошибок).