А как насчет использования отладчика?
Если вы работаете в Windows, вы можете использовать отладчик VisualStudio.Если вы используете Linux (лучше), вы можете использовать cuda-gdb.
Типичный способ создать правильное ядро:
сначала реализовать простой алгоритм только для процессора.затем начните с самого простого способа создания вашего ядра, загрузите / загрузите данные и сравните результат этого первого простого ядра с результатами правильного ядра ЦП.
Затем начните добавлять сложность и создайте новую версиюядро.