Это зависит как от графического процессора, так и от вашей схемы доступа к памяти.Однако, при условии (из-за отсутствия информации в вопросе) последовательной адресации на вычислительной способности 2.0+ GPU (Fermi GPU), см. Слайд 27 из этой презентации Паулюса Микикявичюса из GTC 2010.
На слайде показано, что при низкой загруженности многопроцессорных систем (малое количество активных потоков на многопроцессорную систему) int4 может иметь большое значение по сравнению с int2.Для высокой загруженности разница невелика.
ОДНАКО, как отмечает слайд: «Несколько независимых меньших доступов имеют такой же эффект, как один больший. Например: четыре 32-битных ~ = один 128-битных»,Таким образом, если два значения int2, которые вам нужно загрузить, являются независимыми, просто выполните две загрузки один за другим в своем коде, и это должно быть почти такая же производительность, как при выполнении одного int4, при условии согласованного доступа к памяти, как упомянуто выше.