Question

Я буду использовать HPC для своих исследований, и я не знаю много о параллельных или распределенных вычислениях. Я действительно не понимаю DistributedDataParallel() в pytorch. Особенно init_process_group(). В чем смысл инициализации процессов группы? и что такое

init_method: URL, указывающий, как инициализировать пакет.

например (я нашел их в документации):
'tcp://10.1.1.20:23456' или 'file:///mnt/nfs/sharedfile'
Что это за URL?

Что такое ранг текущего процесса?
world_size количество графических процессоров?

Было бы очень признательно, если бы кто-нибудь объяснил мне, что такое и как использовать DistributedDataParallel() и init_process_group(), потому что я не знаю параллельных или распределенных вычислений.

Я буду использовать такие вещи, как Slurm (sbatch) в HPC.

Как использовать DistributedDataParallel () и init_process_group () в HPC?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как использовать DistributedDataParallel () и init_process_group () в HPC?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов