У меня очень дорогой конвейер данных. Я хочу использовать tf.data.Dataset.cache
для кэширования первого набора данных эпохи на диск. Тогда ускорите процесс. Причина, по которой я делаю это вместо сохранения набора данных в tfrecords, заключается в том, что
1) Я каждый раз меняю много параметров, делая обработку, мне удобнее кэшировать их на лету
2) Я делаю перекрестную проверку, поэтому я не знаю, какие файлы обрабатывать
У меня есть наивное решение - создать конвейер для каждого сворачивания обучающих файлов, но для кеширования требуется много места (я делаю в 10 раз), что эквивалентно 1 ТБ.
Есть ли другой способ сделать это более эффективно как в пространстве, так и во времени?