Я использую калькулятор CUDA Occupancy, чтобы попытаться оптимизировать мое ядро CUDA. В настоящее время я использую 34 регистра и нулевую разделяемую память ... Таким образом, максимальная занятость составляет 63% для 310 потоков на блок. Когда я мог как-то изменить регистры (например, передавая параметры ядра через разделяемую память) на 20 или ниже, я мог получить заполненность 100%. Это хороший способ сделать это, или вы бы посоветовали мне использовать другой путь оптимизации?
Далее мне также интересно, есть ли более новая версия калькулятора занятости для Compute Capability 2.1!?