В CUDA 4.0 или более поздних версиях cudaSetDevice(deviceId)
, за которым следует ваш код тяги, должны работать.
Просто имейте в виду, что вам нужно будет создавать и работать с отдельными векторами на каждом устройстве (если только у вас нет устройств, поддерживающих одноранговый доступ к памяти и пропускная способность PCI-Express достаточна для вашей задачи).