У меня есть 60 ГБ файлов .npy , распределенных по 20 файлам. Я хочу построить нейронную сеть в tensorflow
, чтобы учиться на этих данных.
Я планирую тренироваться на 19 файлах, чтобы протестировать на 1 файле. Каждый файл содержит примерно 80 столбцов данных x
и 1 столбец категориальных данных y
. Типы данных np.float64
и np.int64
. Я не могу уменьшить типы данных до меньших размеров, потому что потерю ценные данные при ошибках округления.
У меня нет проблем с загрузкой данных в мою нейронную сеть, когда я загружаю один файл, но у меня возникают проблемы с обучением, потому что мне нужно изучать все данных. Я не могу изучать файлы в последовательном порядке (например, тренироваться на файлах 1-19 в порядке 1, 2, 3, ..., 19). Мне нужно как-то перемешать все данных для каждой эпохи.
Я читал сообщения типа , этот , который выглядит почти идентично моему вопросу. Тем не менее, мой вопрос другой, потому что мне нужно перетасовать несколько файлов. Я не видел такого ответа на stackoverflow.