Я буду использовать HPC для своих исследований, и я не знаю много о параллельных или распределенных вычислениях.
Я действительно не понимаю DistributedDataParallel()
в pytorch. Особенно init_process_group()
.
В чем смысл инициализации процессов группы? и что такое
init_method: URL, указывающий, как инициализировать пакет.
например (я нашел их в документации):
'tcp://10.1.1.20:23456'
или 'file:///mnt/nfs/sharedfile'
Что это за URL?
Что такое ранг текущего процесса?
world_size
количество графических процессоров?
Было бы очень признательно, если бы кто-нибудь объяснил мне, что такое и как использовать DistributedDataParallel()
и init_process_group()
, потому что я не знаю параллельных или распределенных вычислений.
Я буду использовать такие вещи, как Slurm (sbatch) в HPC.