У меня есть большой кусок сгенерированных данных (A [i, j, k]) на устройстве, но мне нужен только один «фрагмент» A [i,:,:], а в обычной CUDA может быть легко достигнуто с некоторой арифметикой указателя.
Можно ли сделать то же самое в пикуде? то есть
cuda.memcpy_dtoh(h_iA,d_A+(i*stride))
Очевидно, что это совершенно неверно, поскольку нет информации о размере (если не выводится из формы dest), но, надеюсь, вы поняли идею?