Я пытаюсь обучить мою модель, используя PyTorch и AWS EC2 Instance (g3s.xlarge), но есть распространенная ошибка, известная RuntimeError: CUDA ошибка: срабатывание подтверждения на стороне устройства
Итак, получим более четкую трассировку стека, я запускаю свой sscript, используя CUDA_LAUNCH_BLOCKING = 1, и у меня есть все трассировки стека:
/pytorch/aten/src/ATen/native/cuda/IndexKernel.cu:53: lambda [](int)->auto::operator()(int)->auto: block: [0,0,0], thread: [44,0,0] Assertion `index >= -sizes[i] && index < sizes[i] && "index out of bounds"` failed.
/pytorch/aten/src/ATen/native/cuda/IndexKernel.cu:53: lambda [](int)->auto::operator()(int)->auto: block: [0,0,0], thread: [26,0,0] Assertion `index >= -sizes[i] && index < sizes[i] && "index out of bounds"` failed.
THCudaCheck FAIL file=/pytorch/aten/src/THC/THCCachingHostAllocator.cpp line=265 error=59 : device-side assert triggered
Traceback (most recent call last):
File "train.py", line 367, in <module>
backup_every=args.backup_every)
File "train.py", line 267, in train
if torch.isnan(loss):
RuntimeError: CUDA error: device-side assert triggered
Эта ошибка возникла в течение первой эпохи или во время тест первой эпохи (зависит)
Я проверяю свой набор данных и: - нет отрицательного числа - все выходные файлы представлены в формате Yolo - количество файлов и меток точно такое же
Количество классов, которые у меня есть, составляет 17 (поэтому я использую 17 для генерации моего cfg, и я ввожу 17 в моем файле .data)
Я не могу определить, где ошибка, у вас есть Любая идея?
РЕДАКТИРОВАТЬ:
Я пытаюсь выполнить ту же команду, с тем же набором данных на процессоре, и произошла следующая ошибка:
Using CPU
Traceback (most recent call last):
File "train.py", line 367, in <module>
backup_every=args.backup_every)
File "train.py", line 198, in train
load_darknet_weights(model, f'weights/{cutoff_name}')
File "/home/florian/EYESR/eyesr-psycle/yolo_utils/models.py", line 278, in load_darknet_weights
conv_w = torch.from_numpy(weights[ptr:ptr + num_w]).view_as(conv_layer.weight)
RuntimeError: shape '[512, 256, 3, 3]' is invalid for input of size 776331
Может, когда я это решу, может повлиять ошибка на GPU?