Я написал несколько простых тестов, которые выполняют серию глобальных обращений к памяти.Когда я измерял статистику кэша L1 и L2, я обнаружил, что (в GTX580, который имеет 16 SM):
total L1 cache misses * 16 != total L2 cache queries
Действительно, правая сторона намного выше левой (примерно в пять раз),Я слышал, что некоторые разливы регистров могут быть помещены и в L2.Но в моем ядре всего 28 регистров, не так много.Интересно, что будет источником этой разницы?Или я неправильно понимаю значение этих счетчиков производительности?
Спасибо