nvprof поддерживает как события (необработанные счетчики), так и метрики. Они могут быть запрошены с помощью следующих команд:
nvprof --query-события
nvprof --query-метрика
CC5. / 6. Методы локальной памяти
- local_load_transactions_per_request : Среднее число транзакций загрузки локальной памяти, выполненных для каждой загрузки локальной памяти
- local_store_transactions_per_request : Среднее число транзакций хранилища локальной памяти, выполненных для каждого хранилища локальной памяти
- local_load_transactions : Количество транзакций загрузки локальной памяти
- local_store_transactions : Количество транзакций локального хранилища памяти
- local_hit_rate : частота попаданий для локальных загрузок и магазинов
- local_memory_overhead : отношение трафика локальной памяти к общему трафику памяти между кэшами L1 и L2, выраженное в процентах
- local_load_throughput : пропускная способность загрузки локальной памяти
- local_store_throughput : пропускная способность хранилища локальной памяти
- inst_executed_local_loads : инструкции уровня деформации для локальных нагрузок
- inst_executed_local_stores : инструкции уровня деформации для локальных хранилищ
- l2_local_load_bytes : считанные байты из L2 для пропусков в Unified Cache для локальных нагрузок
- l2_local_global_store_bytes : байты, записанные в L2 из Unified Cache для локальных и глобальных хранилищ. Сюда не входит глобальная атомика.
- local_load_requests : общее количество запросов локальной загрузки от мультипроцессора
- local_store_requests : общее количество запросов локального хранилища от мультипроцессора
local_ _request - количество инструкций, выполненных в локальной памяти через общее адресное пространство или локальное адресное пространство. На CC5. / 6. * Я не помню, включает ли это полностью предикаты инструкций.
локальные _ * _ транзакции - это число обращений к кэшу, которое произошло из-за размера (32-разрядного, 64-разрядного, ...) запроса и расхождения адресов запроса. Если это не ноль, то к локальной памяти обращались.
l2_local _ * _ bytes - это количество байтов данных, загруженных / сохраненных в кэш L2.