Проблемы при загрузке с диска с наборами данных pytorch. DataSetFolder - PullRequest
0 голосов
/ 18 ноября 2018

Загрузка отлично работает с использованием jupyter и локальных файлов, но когда я адаптировался к Colab, извлекая данные из папки Drive, наборов данных. DataSetFolder всегда загружает 9500 нечетных точек данных, а не полных 10 000. У кого-нибудь были подобные проблемы?

train_data = datasets.DatasetFolder('/content/drive/My Drive/4 - kaggle/data', np.load, list(('npy'))  )

print(train_data.__len__)

Возвращает

<bound method DatasetFolder.__len__ of Dataset DatasetFolder
    Number of datapoints: 9554
    Root Location: /content/drive/My Drive/4 - kaggle/data
    Transforms (if any): None
    Target Transforms (if any): None>

Где я обычно получаю полные 10 000 элементов.

1 Ответ

0 голосов
/ 13 декабря 2018

Загрузка большого количества файлов из одной папки на диске, вероятно, будет медленной и подверженной ошибкам. Вы, вероятно, окажетесь намного счастливее, если вы либо разместите данные в GCS, либо загрузите архив (.zip или .tar.gz) на диск и скопируете этот файл на свою виртуальную машину colab, разархивируете его там, а затем запустите свой код поверх локальных данных.

...