Я хочу использовать файл numpy (.npy) с Google Диска в Google Colab, не импортируя его в ОЗУ.
Я работаю над классификацией изображений и храню данные моего изображения в четырех numpy файлы на Google Диске. Общий размер файлов превышает 14 ГБ. В то время как Google Colab предлагает для использования только 12 ГБ ОЗУ. Есть ли способ, которым я могу его использовать, загружая только одну партию в плунжер для обучения модели и удаляя ее с плунжера (возможно, аналогично flow_from_directory)?
Проблема с использованием flow_from_directory заключается в том, что это очень медленно даже для одного блока VGG16, даже если у меня есть изображения в каталоге Colab.
Я использую набор данных Cats vs Dogs Classifier от Kaggle.
! kaggle competitions download -c 'dogs-vs-cats'
Я преобразовал данные изображения в массив numpy и сохранил его в 4 файлах:
X_train - float32 - 10,62 ГБ - (18941, 224, 224, 3)
X_test - float32 - 3,4 ГБ - (6059 , 224, 224, 3)
Y_train - float64 - 148 КБ - (18941)
Y_test - float64 - 47 КБ - (6059)
Когда я запускаю следующий код, сеанс аварийно завершается с отображением «Сбой сеанса после использования всей доступной оперативной памяти». ошибка.
import numpy as np
X_train = np.load('Cat_Dog_Classifier/X_train.npy')
Y_train = np.load('Cat_Dog_Classifier/Y_train.npy')
X_test = np.load('Cat_Dog_Classifier/X_test.npy')
Y_test = np.load('Cat_Dog_Classifier/Y_test.npy')
Есть ли способ использовать эти 4 файла, не загружая их в ОЗУ?