L2 кеш в NVIDIA Fermi - PullRequest
       97

L2 кеш в NVIDIA Fermi

4 голосов
/ 06 августа 2011

Просматривая имя счетчиков производительности в архитектуре NVIDIA Fermi (файл Compute_profiler.txt в папке doc cuda), я заметил, что для пропусков кэша L2 есть два счетчика производительности, l2_subp0_read_sector_misses и l2_subp1_read_sector_misses. Они сказали, что это для двух кусочков L2.

Почему у них два среза L2? Есть ли связь с потоковой многопроцессорной архитектурой? Какое влияние окажет это разделение на производительность?

Спасибо

Ответы [ 2 ]

1 голос
/ 19 мая 2012

Руководство по программированию CUDA C описывает архитектуру мультипроцессора.В документе говорится, что каждый мультипроцессор Fermi имеет два планировщика деформации.Я предполагаю, что кэш L2 разделен для одновременного кэширования.

Я не видел пропусков чтения L2 для архитектуры Kepler, но мультипроцессоры Kepler имеют четыре процессора деформации.Таким образом, это предположение может быть подтверждено, если для компиляции Kepler было указано четыре счетчика производительности.

1 голос
/ 10 августа 2011

Я не думаю, что есть прямая связь с потоковым мультипроцессором.

Я просто думаю, что срез эквивалентен банковской памяти.

Просто сложите значения двух, чтобы получить«общее» чтение L2 отсутствует.

...