Я столкнулся с проблемой, пытаясь проанализировать мои ядра. У меня есть симулятор частиц, и CUDA работает хорошо и ускоряет мое приложение. Но неожиданно при увеличении количества частиц выше определенного, но не совсем известного порога два моих ядра становятся очень медленными, и все приложение работает медленнее, чем оригинальная реализация, не относящаяся к CUDA.
[Небольшая сторона: кто-нибудь знает, почему? Я играл с конфигурациями исполнения, но без большой разницы]
Используя NVVP работает, я могу видеть временную шкалу. Однако, когда я пытаюсь запустить управляемый анализ, появляется окно, сообщающее мне
Unable to collect metric and event values.
"Internal error: CUDA profile"
Консоль сообщает мне
======== Error: CUDA profiling error.
==16722== Error: Internal profiling error 4183:7.
Дополнительно, при попытке с помощью nvprof использовать
nvprof --analysis-metrics -o analysis.nvprof ./Simulator
дает мне
==12582== Warning: PC Sampling is not supported on the underlying platform.
Я использую CUDA 10.1 на Ubuntu 16.04 LTS, мой графический процессор - GeForce 940MX.
Помощь или подсказки будут высоко оценены.