Можно ли определить количество максимальных резидентных блоков на всем графическом процессоре, чтобы избежать необходимости повторного выполнения ядра в качестве глобального барьера?
Точнее, я хочу избежать затрат на копирование частичных результатов в глобальную память и затрат на выполнение ядра. Таким образом, работа будет равномерно распределена по каждому блоку, и блоки будут чередовать свои вычисления, пока один из них не найдет результат.
Большое спасибо.