A> 1.2. GPU постарается сделать все возможное для объединения, поскольку он может группировать обращения к памяти того же размера, которые умещаются в одном и том же атоме памяти в 256 байтов, и записывать их как 1 запись в память. Графический процессор позаботится о переупорядочении доступа и выравнивании его по правой границе памяти. (В более ранних графических процессорах транзакции памяти внутри деформации должны были быть выровнены с атомом памяти и должны быть в правильном порядке.)
Однако для оптимальной производительности вам все равно нужно убедиться, что эти возможности объединения доступны. Если все потоки внутри деформации имеют транзакции памяти с совершенно разными атомами памяти, объединитель ничего не может сделать, поэтому ему все равно стоит знать о поведении локальности памяти вашего ядра.