Да, это возможно, я сделал это сам, единственная проблема в том, что вам понадобится два компьютера, подключенных к сети, с двумя одинаковыми видеокартами. Один из них будет выполнять ваше ядро шаг за шагом (из-за этого графический адаптер не сможет отображать результаты, дисплей будет зависать), здесь второй компьютер начинает играть, он отображает результаты в Visual Studio, как вы отлаживали обычную программу.
Лично я считаю NVIDIA Parallel Nsight бесполезным инструментом. Любая отладка ядра может быть выполнена путем добавления дополнительного аргумента к ядру и вывода любых данных объекта.