Раньше в cudaprof были счетчики профилирования для глобальной памяти (gst_coherent, gst_incoherent, gld_coherent, gld_incoherent), которые были мне полезны и понятны, потому что они говорили мне, сколько неразборчивых глобальных операций чтения и записи у меня было.
Теперь, кажется, есть только «запросы gst» и «запросы gld».Это общее количество загрузок / накоплений за деформацию в mp 0. Как определить, есть ли у меня коалесцированные операции чтения / записи? Я предполагаю, что было бы меньше запросов, если бы запросы были объединены.Я должен выяснить, сколько я ожидаю на поток и сравнить?К сожалению, мое ядро слишком динамично для этого.