Question

У меня очень дорогой конвейер данных. Я хочу использовать tf.data.Dataset.cache для кэширования первого набора данных эпохи на диск. Тогда ускорите процесс. Причина, по которой я делаю это вместо сохранения набора данных в tfrecords, заключается в том, что 1) Я каждый раз меняю много параметров, делая обработку, мне удобнее кэшировать их на лету 2) Я делаю перекрестную проверку, поэтому я не знаю, какие файлы обрабатывать

У меня есть наивное решение - создать конвейер для каждого сворачивания обучающих файлов, но для кеширования требуется много места (я делаю в 10 раз), что эквивалентно 1 ТБ.

Есть ли другой способ сделать это более эффективно как в пространстве, так и во времени?

C W · Answer 1 · 10 июня 2019

Отвечая на мой собственный вопрос, для этого я могу создать конвейер для каждого файла, кэшировать каждый конвейер на диске, поместить их в deque, а затем использовать tf.data.experimental.sample_from_datasets.

Перекрестная проверка кэша набора данных Тензор

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Перекрестная проверка кэша набора данных Тензор

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы