Перекрестная проверка кэша набора данных Тензор - PullRequest
0 голосов
/ 10 июня 2019

У меня очень дорогой конвейер данных. Я хочу использовать tf.data.Dataset.cache для кэширования первого набора данных эпохи на диск. Тогда ускорите процесс. Причина, по которой я делаю это вместо сохранения набора данных в tfrecords, заключается в том, что 1) Я каждый раз меняю много параметров, делая обработку, мне удобнее кэшировать их на лету 2) Я делаю перекрестную проверку, поэтому я не знаю, какие файлы обрабатывать

У меня есть наивное решение - создать конвейер для каждого сворачивания обучающих файлов, но для кеширования требуется много места (я делаю в 10 раз), что эквивалентно 1 ТБ.

Есть ли другой способ сделать это более эффективно как в пространстве, так и во времени?

1 Ответ

0 голосов
/ 10 июня 2019

Отвечая на мой собственный вопрос, для этого я могу создать конвейер для каждого файла, кэшировать каждый конвейер на диске, поместить их в deque, а затем использовать tf.data.experimental.sample_from_datasets.

...