Есть ли способ получить доступ и работать с данными, хранящимися в корзине GCP напрямую? - PullRequest
0 голосов
/ 02 ноября 2019

Я должен сделать проект глубокого обучения в моем университете, где мне нужно работать с базой данных медицинских изображений. Эта база данных хранится в корзине Google Cloud Platform.

Однако размер базы данных превышает 4 ТБ, поэтому я не могу позволить себе загрузить данные, используя gsutil. Я также не могу использовать записную книжку Google Colab, поскольку ее объем на диске составляет 350 ГБ.

Можно ли как-то получить доступ к данным и использовать их для обучения своей сети?

1 Ответ

2 голосов
/ 03 ноября 2019

Я думаю, вы не на правильном пути.

Когда вы строите свою модель, вам нужно иметь только репрезентативное подмножество вашего набора данных для проверки ваших слоев и ожидаемого поведения.

Затем, когда все готово и упаковано, вы запускаетеучебная работа на выделенной виртуальной машине (например, Deep Learning VM). Этот процесс может быть обработан автоматически AI-Platform. Вы также можете настроить сервер гиперпараметров и распараллелить ваше обучение.

На этапе обучения вы часто работаете с пакетами: вы загружаете только подмножество своего набора данных, вы перемешиваете его и тренируетесь, выполняя несколько шагов по этомуподмножество (с RMSE / кросс-энтропийным вычислением, оценкой, градиентной оптимизацией).

Поскольку вы используете подмножество своего полного набора данных в пакетном режиме, вам не нужно иметь 4 ТБ на виртуальной машине одновременно. Ваш цикл обучения сделает это за вас (загрузите, обучите, оцените, удалите).

Как я уже говорил, поскольку вы используете подмножество, вы также можете распараллелить ваше обучение на нескольких виртуальных машинах, чтобы сократить продолжительность обучения.

Я рекомендую вам пересмотреть ваш цикл обучения. Если вы дадите мне название / версию фреймворка, над которым вы работаете, я мог бы помочь вам с обучающими материалами и примерами.

...