У меня есть набор папок, который имеет следующую структуру
Data
-->1
--->_1.txt
--->_2.txt
--->_3.txt
--->2
--->_1.txt
--->_2.txt
--->_3.txt
1,2 являются ярлыками, и каждая папка имеет несколько текстовых документов.Я разрабатываю модель классификации текста с использованием керас.Я загружаю все данные в память одновременно.
import sklearn.datasets as skds
files_train = skds.load_files(path_train,load_content=False)
# Read and add data from file to a list
i=0
for f in labelled_files:
data_list.append(Path(f).read_text((encoding='utf8',errors='ignore')))
У меня огромный корпус размером 20 ГБ.Как эффективно загрузить эти данные в память для обучения
history = self.model.fit(x_train, y_train,
batch_size=batch_size,
epochs=self.num_epochs,
verbose=1,
validation_split=0.1,
shuffle=True,
callbacks=[tensorboard])