У меня есть две версии ядра. Один с большим шагом в глобальном доступе к памяти (шаг = 512) со следующей статистикой для глобальных транзакций памяти:
и один с небольшим шагом(шаг = 32) со следующей статистикой:
Я использую графический процессор с архитектурой Maxwell и вычислительными возможностями 5.0. В архитектуре maxwell глобальные загрузки являются кешем только в L2.
Почему существует такая большая разница между пропускной способностью этих двух ядер, в то время как транзакции памяти L2 абсолютно одинаковы?