Ошибка CUDA: ошибка срабатывания подтверждения на стороне устройства в экземпляре AWS EC2 - PullRequest
1 голос
/ 22 февраля 2020

Я пытаюсь обучить мою модель, используя PyTorch и AWS EC2 Instance (g3s.xlarge), но есть распространенная ошибка, известная RuntimeError: CUDA ошибка: срабатывание подтверждения на стороне устройства

Итак, получим более четкую трассировку стека, я запускаю свой sscript, используя CUDA_LAUNCH_BLOCKING = 1, и у меня есть все трассировки стека:

  /pytorch/aten/src/ATen/native/cuda/IndexKernel.cu:53: lambda [](int)->auto::operator()(int)->auto: block: [0,0,0], thread: [44,0,0] Assertion `index >= -sizes[i] && index < sizes[i] && "index out of bounds"` failed.
/pytorch/aten/src/ATen/native/cuda/IndexKernel.cu:53: lambda [](int)->auto::operator()(int)->auto: block: [0,0,0], thread: [26,0,0] Assertion `index >= -sizes[i] && index < sizes[i] && "index out of bounds"` failed.
THCudaCheck FAIL file=/pytorch/aten/src/THC/THCCachingHostAllocator.cpp line=265 error=59 : device-side assert triggered
Traceback (most recent call last):
  File "train.py", line 367, in <module>
    backup_every=args.backup_every)
  File "train.py", line 267, in train
    if torch.isnan(loss):
RuntimeError: CUDA error: device-side assert triggered

Эта ошибка возникла в течение первой эпохи или во время тест первой эпохи (зависит)

Я проверяю свой набор данных и: - нет отрицательного числа - все выходные файлы представлены в формате Yolo - количество файлов и меток точно такое же

Количество классов, которые у меня есть, составляет 17 (поэтому я использую 17 для генерации моего cfg, и я ввожу 17 в моем файле .data)

Я не могу определить, где ошибка, у вас есть Любая идея?

РЕДАКТИРОВАТЬ:

Я пытаюсь выполнить ту же команду, с тем же набором данных на процессоре, и произошла следующая ошибка:

Using CPU

Traceback (most recent call last):
  File "train.py", line 367, in <module>
    backup_every=args.backup_every)
  File "train.py", line 198, in train
    load_darknet_weights(model, f'weights/{cutoff_name}')
  File "/home/florian/EYESR/eyesr-psycle/yolo_utils/models.py", line 278, in load_darknet_weights
    conv_w = torch.from_numpy(weights[ptr:ptr + num_w]).view_as(conv_layer.weight)
RuntimeError: shape '[512, 256, 3, 3]' is invalid for input of size 776331

Может, когда я это решу, может повлиять ошибка на GPU?

...