ValueError: Ошибка инициализации torch.distributed с использованием env: // rendezvous: переменная окружения MASTER_ADDR ожидается, но не установлено - PullRequest
0 голосов
/ 28 июня 2019

Я не могу инициализировать групповой процесс в PyTorch для модели BERT Я пытался инициализировать, используя следующий код:

import torch
import datetime

torch.distributed.init_process_group(
    backend='nccl',
    init_method='env://',
    timeout=datetime.timedelta(0, 1800),
    world_size=0,
    rank=0,
    store=None,
    group_name=''
)

и попытался получить доступ к функции get_world_size():

num_train_optimization_steps = num_train_optimization_steps // torch.distributed.get_world_size()

полный код:

train_examples = None
    num_train_optimization_steps = None
    if do_train:
        train_examples = processor.get_train_examples(data_dir)
        num_train_optimization_steps = int(
            len(train_examples) / train_batch_size / gradient_accumulation_steps) * num_train_epochs
        if local_rank != -1:
            import datetime
            torch.distributed.init_process_group(backend='nccl',init_method='env://', timeout=datetime.timedelta(0, 1800), world_size=0, rank=0, store=None, group_name='')
            num_train_optimization_steps = num_train_optimization_steps // torch.distributed.get_world_size()
            print(num_train_optimization_steps)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...