Конвейер набора данных Tensorflow для большого файла HDF5 - PullRequest
0 голосов
/ 28 сентября 2018

Допустим, у меня есть 10 миллионов обучающих выборок, хранящихся в файле HDF5, и я хочу создать партии размером 1000 с набором данных TensorFlow.Тем не менее, 10 миллионов выборок слишком велики для загрузки в память.

Что я хочу сделать, так это загрузить загруженные данные из HDF5 в память по 1 миллиону за один раз, а затем выполнить итерацию для генерации своих пакетовразмером 1000. Когда закончится 1 миллион сэмплов, я хочу загрузить следующие 1 миллион из HDF5 и продолжить.Я хотел бы справиться с этим с помощью одного набора данных в tenorflow.

Однако я не вижу, как это сделать с помощью API набора данных из tenorflow.

Как выполнить итерацию на двух уровняхвот так (1-й уровень = большие порции в 1 миллион, 2-й уровень = маленькие порции по 1000).

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...