Как указано в документе :
Ядро из одного контекста CUDA не может работать одновременно с ядром из другого контекста CUDA.
Но когда я профилировал одну многопроцессорную программу, ядра и Memcpys работали параллельно (хотя и из разных контекстов), что довольно сложно:
Я использую CUDA9.0
на TITAN Xp
и без использования Multi-Process Service
.