Ускорение загрузки наборов данных в Google Colab - PullRequest
0 голосов
/ 05 января 2019

Я работаю над классификацией изображений в немецком наборе данных дорожных знаков в Google Colab с Pytorch. Вот структура набора данных:

  • GTSRB
    • Обучение
      • 00000 /
        • *. РРММЫ
      • ...
      • 00043 /
        • *. РРММЫ
    • Test
      • *. РРММЫ
      • ...
      • tags.csv

Мне удалось загрузить весь набор данных на диск (это заняло много времени !!!). Я использовал класс ImageFolder и класс Dataset для загрузки соответственно обучающих и тестовых изображений.

Однако тренировка моей модели очень медленная, а графический процессор не используется эффективно. После многих поисков я обнаружил, что здесь происходит ошибка передачи файлов с диска на Colab.

Кто-нибудь знает, как я могу использовать набор данных hd5 (или другие методы), чтобы сначала сохранить все обучающие и тестовые изображения для последующей предварительной обработки?

1 Ответ

0 голосов
/ 09 января 2019

Если вашей проблемой действительно является скорость сети между Colab и Drive, попробуйте загрузить файлы непосредственно в экземпляр Google Colab, а не получить к ним доступ с Drive.

from google.colab import files
dataset_file_dict = files.upload()

При этом файлы будут сохранены непосредственно в вашем экземпляре Colab, что позволит вашему коду обращаться к файлам локально.

Однако я подозреваю, что могут быть и другие проблемы, помимо задержки в сети - возможно, ваша модель имеет много параметров или что-то в коде содержит ошибку для запуска CUDA. Иногда я забываю изменить время выполнения на время выполнения графического процессора на вкладке меню «Время выполнения» «Изменить тип времени выполнения».

Надеюсь, это поможет!

...