Руководство по программированию CUDA утверждает, что
"Пропускная способность является одним из наиболее важных факторов, влияющих на производительность. Почти все изменения в коде следует вносить в контексте того, как они влияют на пропускную способность."
Далее вычисляется теоретическая пропускная способность, которая составляет порядка сотен гигабайт в секунду. Я в недоумении, почему количество байтов, которое можно прочитать / записать в глобальную память, отражает то, насколько хорошо оптимизировано ядро.
Если у меня есть ядро, которое выполняет интенсивные вычисления для данных, хранящихся в разделяемой памяти и / или регистрах, с единственным чтением в начале и записью в конце из и в глобальную память, несомненно, эффективная пропускная способность будет небольшой в то время как само ядро может быть очень эффективным.
Может ли кто-нибудь дополнительно объяснить пропускную способность в этом контексте?
Спасибо