метрика попадания локального кэша в Cuda Profiler - PullRequest
0 голосов
/ 17 апреля 2019

Для некоторых профилей приложений CUDA я вижу, что значение локального коэффициента попадания (метрика local_hit_rate) равно 0%.

Я хочу различать следующие значения с этим значением.

  1. Приложение не имеет доступа к локальному кешу.

  2. Все обращения к локальному кешу были пропущены.

Как я могунайти ответ?Поскольку значения inst_compute_ld_st, ldst_issued и ldst_executed отличны от нуля, можно ли отказаться от первого вопроса?Или есть что-то еще?

Устройство M2000, которое CC5.3 CC5.2

1 Ответ

3 голосов
/ 18 апреля 2019

nvprof поддерживает как события (необработанные счетчики), так и метрики. Они могут быть запрошены с помощью следующих команд: nvprof --query-события nvprof --query-метрика

CC5. / 6. Методы локальной памяти

  • local_load_transactions_per_request : Среднее число транзакций загрузки локальной памяти, выполненных для каждой загрузки локальной памяти
  • local_store_transactions_per_request : Среднее число транзакций хранилища локальной памяти, выполненных для каждого хранилища локальной памяти
  • local_load_transactions : Количество транзакций загрузки локальной памяти
  • local_store_transactions : Количество транзакций локального хранилища памяти
  • local_hit_rate : частота попаданий для локальных загрузок и магазинов
  • local_memory_overhead : отношение трафика локальной памяти к общему трафику памяти между кэшами L1 и L2, выраженное в процентах
  • local_load_throughput : пропускная способность загрузки локальной памяти
  • local_store_throughput : пропускная способность хранилища локальной памяти
  • inst_executed_local_loads : инструкции уровня деформации для локальных нагрузок
  • inst_executed_local_stores : инструкции уровня деформации для локальных хранилищ
  • l2_local_load_bytes : считанные байты из L2 для пропусков в Unified Cache для локальных нагрузок
  • l2_local_global_store_bytes : байты, записанные в L2 из Unified Cache для локальных и глобальных хранилищ. Сюда не входит глобальная атомика.
  • local_load_requests : общее количество запросов локальной загрузки от мультипроцессора
  • local_store_requests : общее количество запросов локального хранилища от мультипроцессора

local_ _request - количество инструкций, выполненных в локальной памяти через общее адресное пространство или локальное адресное пространство. На CC5. / 6. * Я не помню, включает ли это полностью предикаты инструкций.

локальные _ * _ транзакции - это число обращений к кэшу, которое произошло из-за размера (32-разрядного, 64-разрядного, ...) запроса и расхождения адресов запроса. Если это не ноль, то к локальной памяти обращались.

l2_local _ * _ bytes - это количество байтов данных, загруженных / сохраненных в кэш L2.

...