Question

Просматривая имя счетчиков производительности в архитектуре NVIDIA Fermi (файл Compute_profiler.txt в папке doc cuda), я заметил, что для пропусков кэша L2 есть два счетчика производительности, l2_subp0_read_sector_misses и l2_subp1_read_sector_misses. Они сказали, что это для двух кусочков L2.

Почему у них два среза L2? Есть ли связь с потоковой многопроцессорной архитектурой? Какое влияние окажет это разделение на производительность?

Спасибо

Thomas Ryan Stovall · Answer 1 · 19 мая 2012

Руководство по программированию CUDA C описывает архитектуру мультипроцессора.В документе говорится, что каждый мультипроцессор Fermi имеет два планировщика деформации.Я предполагаю, что кэш L2 разделен для одновременного кэширования.

Я не видел пропусков чтения L2 для архитектуры Kepler, но мультипроцессоры Kepler имеют четыре процессора деформации.Таким образом, это предположение может быть подтверждено, если для компиляции Kepler было указано четыре счетчика производительности.

fabrizioM · Answer 2 · 10 августа 2011

Я не думаю, что есть прямая связь с потоковым мультипроцессором.

Я просто думаю, что срез эквивалентен банковской памяти.

Просто сложите значения двух, чтобы получить«общее» чтение L2 отсутствует.

L2 кеш в NVIDIA Fermi

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

L2 кеш в NVIDIA Fermi

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы