Я настраивал свой код для запуска с задержкой dask, и до сих пор я очень доволен тем, как быстро я его добился. Опция LocalCluster
прекрасно работает, и я вижу все в веб-интерфейсе.
Однако моя конечная цель - использовать LocalCUDACluster
, чтобы мои функции работали на графическом процессоре. Прямо сейчас, хотя я не могу сказать, используется ли мой графический процессор. Я использую client.map
и client.gather
.
Поддерживает ли dask CUDA это или по умолчанию возвращается к процессору?
Если он поддерживает карту и сбор, то проблема в том, что я использую numpy вместо cupy?
Могу ли я использовать декоратор @njit
?
Должен ли я все еще распределять свои данные? Я знаю, что для процессора мне очень повезло, когда я сделал 100 кусков, каждый из которых содержал 1000 предметов. Так как в gpu столько потоков, я должен разделять их на части или я должен позволить каждому потоку выполнять один элемент?
Спасибо