Задержка в общей / постоянной / текстурной памяти невелика и зависит от того, какое у вас устройство.В целом, хотя графические процессоры спроектированы как архитектура пропускной способности, что означает, что при создании достаточного количества потоков латентность памяти, включая глобальную память, скрыта.
Причина, по которой гиды говорят о задержке для глобальной памяти, заключается в том, что задержка на несколько порядков выше, чем в других воспоминаниях, что означает, что она является доминирующей задержкой, которую следует учитывать при оптимизации.* Вы упомянули постоянный кеш в частности.Вы совершенно правы, что если все потоки внутри деформации (то есть группа из 32 потоков) обращаются к одному и тому же адресу, то штраф не применяется, то есть значение считывается из кэша и передается всем потокам одновременно.Однако, если потоки обращаются к разным адресам, доступ должен сериализировать , поскольку кэш-память может предоставлять только одно значение за раз.Если вы используете CUDA Profiler, то это будет отображаться под счетчиком сериализации.
Общая память, в отличие от постоянного кэша, может обеспечить гораздо более высокую пропускную способность.Посмотрите доклад CUDA Optimization для получения более подробной информации и объяснения банковских конфликтов и их влияния.