Я использую ubuntu с conda, python 3.6 и tf gpu 1.12, и использую генератор данных изображений для загрузки изображений, а затем подгоняю генератор.
Я использую этот код
i = gen.flow_from_dataframe(dataframe=df, x_col="new_filename",
y_col="label", class_mode="sparse",
directory=links_dir, target_size=(224, 224), batch_size=32)
model.fit_generator(i, epochs=1, workers=1,
use_multiprocessing=False, max_queue_size=1,
verbose=1)
и получение этой ошибки, даже без запуска пакетов
Процесс завершен с кодом выхода 139 (прерван сигналом 11:
SIGSEGV)
Я подтвердил, что генератор загружает изображения, используя
Я использовал nvidia smi и убедился, что модель создана на GPU и используется память GPU.
Модель представляет собой простую небольшую виртуальную сеть, с которой этот GPU не справится.
print (gen [0]) и получил данные, и все прошло хорошо.
Поэтому я предполагаю, что данные изображения в порядке.
В чем может быть проблема здесь? это могло произойти, потому что у меня есть два графических процессора в машине, и я использую только один?
обновление: также пытались с model.fit для фактических данных, извлеченных из генератора, используя:
data, y = i[0][0], i[0][1]
model.fit(data, y)
При проверке данных это просто массив и метки, как и должно быть.
и получил ту же ошибку sigdev, что означает, что проблема не в потоке данных.
обновление:
Получил работу с полностью подключенной сетью, используя этот код создания:
model = Sequential()
model.add(Flatten(input_shape=(20, 20, 3)))
model.add(Dense(32, activation="relu"))
model.add(Dense(200, activation="sigmoid"))
Не можете найти причину, по которой эта маленькая Conv-сеть не работает на 11 ГБ GPU ... Идеи?
После многих испытаний я обнаружил, что памяти GPU, несомненно, достаточно, и она не используется никакими другими приложениями, и нет никаких причин для работы слоев FC, когда происходит сбой слоев Conv! Я перечислил свои графические процессоры (у меня есть один 1070 и один 2080ti)
Я использовал этот пример , чтобы запустить код на одном GPU, и, вуаля, 2080ti падает, когда 1070 работает нормально. Может ли это быть проблемой с драйверами?