Профилирование с помощью Nsight в настоящее время отключает параллельные ядра, поэтому для получения точного времени вам необходимо использовать события для отслеживания времени.
Вы можете использовать события, как вы ожидаете, и вы можете использовать cudaStreamWaitEvent()
, чтобы заставить поток ожидать событие в другом потоке. Для получения дополнительной информации см. Справочное руководство CUDA , раздел 4.5.2.5.