Доступ к уже загруженному набору данных с помощью tenorflow_datasets API - PullRequest
0 голосов
/ 02 апреля 2019

Я пытаюсь работать с совсем недавно опубликованным API-интерфейсом tenorflow_dataset для обучения модели Keras в наборе данных Open Images.Размер набора данных составляет около 570 ГБ.Я загрузил данные с помощью следующего кода:

import tensorflow_datasets as tfds
import tensorflow as tf

open_images_dataset = tfds.image.OpenImagesV4()
open_images_dataset.download_and_prepare(download_dir="/notebooks/dataset/")

После завершения загрузки соединение с моим ноутбуком Jupyter каким-то образом прервалось, но извлечение, похоже, также было завершено, по крайней мере, все загруженные файлы имели аналогв "извлеченной" папке.Однако сейчас я не могу получить доступ к загруженным данным:

tfds.load(name="open_images_v4", data_dir="/notebooks/open_images_dataset/extracted/", download=False)

Это дает только следующую ошибку:

AssertionError: Dataset open_images_v4: could not find data in /notebooks/open_images_dataset/extracted/. Please make sure to call dataset_builder.download_and_prepare(), or pass download=True to tfds.load() before trying to access the tf.data.Dataset object.

Когда я вызываю функцию download_and_prepare (), она загружает толькоснова весь набор данных.

Я что-то здесь упускаю?

Редактировать: После загрузки папка в папке "extract" содержит 18 файлов .tar.gz.

Ответы [ 2 ]

1 голос
/ 02 апреля 2019

Это для наборов данных tenorflow-1.0.1 и 2.0.1.

Иерархия папок должна быть такой:

/ notebooks / open_images_dataset / extract / open_images_v4 / 0.1.0

Все наборы данных имеют версию.Тогда данные могут быть загружены следующим образом.

ds = tf.load('open_images_v4', data_dir='/notebooks/open_images_dataset/extracted', download=False)

У меня не было данных open_images_v4.Я поместил данные cifar10 в папку с именем open_images_v4, чтобы проверить, какую структуру папок ожидал tenorflow_datasets.

0 голосов
/ 08 апреля 2019

Решением этой проблемы было использование параметра «data_dir» при инициализации набора данных:

builder = tfds.image.OpenImagesV4(data_dir="/raid/openimages/dataset")
builder.download_and_prepare(download_dir="/raid/openimages/dataset")

Таким образом, набор данных не загружается и извлекаются в одном каталоге. Раньше это было (для меня незаметно) извлечение в каталог по умолчанию, который находится в /home/.../. Это и стало причиной ошибки, так как в моем домашнем каталоге не осталось места. После извлечения структура папок в точности соответствует описанному Manoj-Mohan .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...