Ошибка тензорного графического процессора Сигдева при обучении на генераторе данных изображений - PullRequest
0 голосов
/ 21 марта 2019

Я использую ubuntu с conda, python 3.6 и tf gpu 1.12, и использую генератор данных изображений для загрузки изображений, а затем подгоняю генератор.

Я использую этот код

i = gen.flow_from_dataframe(dataframe=df, x_col="new_filename",
                            y_col="label", class_mode="sparse",
                            directory=links_dir, target_size=(224, 224), batch_size=32)

model.fit_generator(i, epochs=1, workers=1,
                    use_multiprocessing=False, max_queue_size=1,
                    verbose=1)

и получение этой ошибки, даже без запуска пакетов

Процесс завершен с кодом выхода 139 (прерван сигналом 11: SIGSEGV)

Я подтвердил, что генератор загружает изображения, используя

Я использовал nvidia smi и убедился, что модель создана на GPU и используется память GPU.

Модель представляет собой простую небольшую виртуальную сеть, с которой этот GPU не справится.

print (gen [0]) и получил данные, и все прошло хорошо. Поэтому я предполагаю, что данные изображения в порядке.

В чем может быть проблема здесь? это могло произойти, потому что у меня есть два графических процессора в машине, и я использую только один?

обновление: также пытались с model.fit для фактических данных, извлеченных из генератора, используя:

data, y = i[0][0], i[0][1] 
model.fit(data, y) 

При проверке данных это просто массив и метки, как и должно быть.

и получил ту же ошибку sigdev, что означает, что проблема не в потоке данных.

обновление: Получил работу с полностью подключенной сетью, используя этот код создания:

model = Sequential()
model.add(Flatten(input_shape=(20, 20, 3)))
model.add(Dense(32, activation="relu"))
model.add(Dense(200, activation="sigmoid"))

Не можете найти причину, по которой эта маленькая Conv-сеть не работает на 11 ГБ GPU ... Идеи?

После многих испытаний я обнаружил, что памяти GPU, несомненно, достаточно, и она не используется никакими другими приложениями, и нет никаких причин для работы слоев FC, когда происходит сбой слоев Conv! Я перечислил свои графические процессоры (у меня есть один 1070 и один 2080ti) Я использовал этот пример , чтобы запустить код на одном GPU, и, вуаля, 2080ti падает, когда 1070 работает нормально. Может ли это быть проблемой с драйверами?

...