загрузить документы в генератор для обучения - PullRequest
0 голосов
/ 01 марта 2019

У меня есть набор папок, который имеет следующую структуру

Data
  -->1
    --->_1.txt
    --->_2.txt
    --->_3.txt
  --->2
    --->_1.txt
    --->_2.txt
    --->_3.txt

1,2 являются ярлыками, и каждая папка имеет несколько текстовых документов.Я разрабатываю модель классификации текста с использованием керас.Я загружаю все данные в память одновременно.

 import sklearn.datasets as skds

 files_train = skds.load_files(path_train,load_content=False)
 # Read and add data from file to a list
 i=0
 for f in labelled_files:
       data_list.append(Path(f).read_text((encoding='utf8',errors='ignore')))

У меня огромный корпус размером 20 ГБ.Как эффективно загрузить эти данные в память для обучения

 history = self.model.fit(x_train, y_train,
                        batch_size=batch_size,
                        epochs=self.num_epochs,
                        verbose=1,
                        validation_split=0.1,
                        shuffle=True,
                        callbacks=[tensorboard])

1 Ответ

0 голосов
/ 01 марта 2019

Попробуйте использовать fit_generator (возможно, с использованием нескольких рабочих) вместо полной загрузки набора данных в память.Я бы посоветовал вам разработать и протестировать генератор независимо от его использования для обучения модели.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...