Я пытаюсь работать с совсем недавно опубликованным API-интерфейсом tenorflow_dataset для обучения модели Keras в наборе данных Open Images.Размер набора данных составляет около 570 ГБ.Я загрузил данные с помощью следующего кода:
import tensorflow_datasets as tfds
import tensorflow as tf
open_images_dataset = tfds.image.OpenImagesV4()
open_images_dataset.download_and_prepare(download_dir="/notebooks/dataset/")
После завершения загрузки соединение с моим ноутбуком Jupyter каким-то образом прервалось, но извлечение, похоже, также было завершено, по крайней мере, все загруженные файлы имели аналогв "извлеченной" папке.Однако сейчас я не могу получить доступ к загруженным данным:
tfds.load(name="open_images_v4", data_dir="/notebooks/open_images_dataset/extracted/", download=False)
Это дает только следующую ошибку:
AssertionError: Dataset open_images_v4: could not find data in /notebooks/open_images_dataset/extracted/. Please make sure to call dataset_builder.download_and_prepare(), or pass download=True to tfds.load() before trying to access the tf.data.Dataset object.
Когда я вызываю функцию download_and_prepare (), она загружает толькоснова весь набор данных.
Я что-то здесь упускаю?
Редактировать: После загрузки папка в папке "extract" содержит 18 файлов .tar.gz.