Получил ошибку «не удается выделить память» при запуске образа докера - PullRequest
0 голосов
/ 21 октября 2019

Я тренирую модель НЛП, используя адаптированную к коду форму https://github.com/huggingface/transformers/blob/master/examples/run_glue.py. Я работаю с панелью инструментов докера в Windows 10 только с процессором. Код работает хорошо локально, и я успешно создал образ докера. Однако, когда я попытался выполнить «docker run $ IMAGE_URI», я получил следующую ошибку на этапе обучения:

  File "xlnet/train_config.py", line 318, in <module>
    global_step, tr_loss = train(train_dataset, model, tokenizer)

  File "xlnet/train_config.py", line 214, in train
    outputs = model(**inputs) 

...

  File "/usr/local/lib/python3.7/site-packages/pytorch_transformers/modeling_xlnet.py", line 383, in rel_shift
    x = torch.index_select(x, 1, torch.arange(klen, device=x.device, dtype=torch.long))

RuntimeError: [enforce fail at CPUAllocator.cpp:64] . DefaultCPUAllocator: can't allocate memory: you tried to allocate 182452224 bytes. Error code 12 (Cannot allocate memory)

Когда я запускаю «docker info», он показывает «CPU: 8, Total Memory: 7.793»Гигабайт». Этого должно быть достаточно ...

Тогда я попытался выделить память 10 ГБ. Больше нет сообщения об ошибке. Но он просто выходит в том же месте без продолжения обучения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...