Обучение больших наборов данных (например, более 30 ГБ) в облаке? - PullRequest
0 голосов
/ 13 апреля 2020

Я работаю над проектом Kaggle, и я застрял на первом препятствии. Набор данных составляет 30 ГБ изображений. Я хочу иметь возможность обучать свою модель на каком-то облачном решении, я загрузил ее на виртуальную машину, получил ее в хранилище Google Cloud Storage, но что-то оттуда кажется слишком сложным. Я пробовал:

  • Монтирование моего Google Диска в Colab и чтение его там (ноутбук не может обработать столько данных)
  • Рендеринг из самой GCS (можно загружать и открывать только один файлы за раз, но это самое близкое, что я получил)
  • Перенос всего этого в Google DataLab и загрузка из GCS там (замедляет до такой степени, что его невозможно использовать, с трудом открывая блокнот сейчас)

Похоже, это будет довольно распространенный сценарий использования ML, просто запуск операций, визуализация, а затем обучение облачным данным? Я предполагаю, что использование чего-то вроде BigQuery нежизнеспособно, учитывая данные его изображения и не может вписаться в структурированный набор данных. Любая помощь высоко ценится.

1 Ответ

0 голосов
/ 17 апреля 2020

Несколько недель назад я столкнулся с той же проблемой go и нашел два хороших способа сделать это в Google Cloud Platform.

Первый - создание экземпляра виртуальной машины с одним из опубликованных * 1011. * глубокие обучающие образы, у вас есть много версий с различными настройками глубокого обучения. Вы должны создать новый экземпляр, go загрузочный диск, там вы выбираете «глубокое изучение на Linux» в операционных системах, а затем выбираете версию, которая вам больше подходит. Затем вы выбираете или нет графический процессор, чтобы ускорить обучение. Обратите внимание, что при остановленном экземпляре виртуальной машины вы можете менять практически все оборудование, так как графические процессоры стоят дорого, я рекомендую использовать их только во время обучения или всякий раз, когда вам нужны вычислительные ресурсы. Я также могу предложить вам использовать SSD-диск для хранения набора данных из-за того, что вы используете набор данных изображения, и это ускорит ваш входной конвейер, т. Е. Прием данных изображения. Я могу дать вам несколько советов, если вы выберете этот способ, например, использовать прикрепленный диск для хранения набора данных, чтобы вы могли легко перемещать его из одного экземпляра в другой.

Второй - создание AI Jupyter. блокнот. Он расположен внутри платформы AI, и есть много учебных пособий , с которыми можно связаться. Они действительно полезны, поскольку являются экземпляром виртуальной машины с глубоким обучением в качестве бэкэнда и Jupyterlab в качестве внешнего интерфейса. Это позволяет легко запускать тренинги для людей, которые не привыкли к такому интерфейсу командной строки, но они немного дороже, если я не ошибаюсь.

Надеюсь, это поможет, и не стесняйтесь спрашивать дальше .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...