Я занимаюсь разработкой приложения с большим потоком управления (хотя соседние потоки в основном выбирают один и тот же путь). Я хочу создать режим отладки / трассировки / ведения журнала, чтобы увидеть, что происходило внутри ядер для каждого потока. Я планирую выделить массивы устройств для переменных / событий, которые я хочу отследить, и использовать шаблоны или макросы для отделения трассировки от производственного кода. Но я не уверен, что есть лучший способ отслеживать / регистрировать ядро CUDA.
Есть ли канонический способ отследить / записать ядро CUDA для каждого потока?