В CUDA 10 добавлены вызовы API времени выполнения для перевода потоков (= очередей) в «режим захвата», чтобы вместо выполнения они возвращались в виде «графика».Затем эти графики могут быть выполнены для фактического выполнения или могут быть клонированы.
Но какова причина этой функции?Не маловероятно ли выполнить один и тот же «граф» дважды?В конце концов, даже если вы запускаете «один и тот же код», по крайней мере, данные отличаются, то есть параметры, которые принимают ядра, вероятно, изменятся.Или - я что-то упустил?
PS - я снял эту слайд-колоду , но все еще не получил ее.