AWS SageMaker на графическом процессоре - PullRequest
0 голосов
/ 26 марта 2020

Я пытаюсь обучить нейронную сеть (Tensorflow) на AWS. У меня есть AWS кредитов. Насколько я понимаю, AWS SageMaker - лучший для работы. Мне удалось загрузить консоль Jupyter Lab в SageMaker и попытаться найти ядро ​​графического процессора, так как я знаю, что оно лучше для обучения нейронных сетей. Однако я не смог найти такое ядро.

Сможет ли кто-нибудь помочь с этим?

Спасибо и наилучшими пожеланиями

Майкл

1 Ответ

1 голос
/ 27 марта 2020

Вы обучаете модели на графическом процессоре в экосистеме SageMaker с помощью 2 разных компонентов:

  1. Вы можете создать экземпляр с поддержкой графического процессора SageMaker Notebook Instance , например p2.xlarge (NVIDIA K80) или p3.2xlarge (NVIDIA V100). Это удобно для интерактивной разработки - у вас есть графический процессор прямо под вашим ноутбуком, и вы можете интерактивно выполнять код на графическом процессоре и контролировать графический процессор с помощью nvidia-smi на вкладке терминала - отличный опыт разработки. Однако, когда вы разрабатываете напрямую с компьютера с графическим процессором, бывают случаи, когда вы не можете использовать графический процессор. Например, когда вы пишете код или просматриваете некоторую документацию. Все это время вы платите за графический процессор, который простаивает. В связи с этим, это может быть не самым экономически эффективным вариантом для вашего варианта использования.

  2. Другой вариант - использовать Учебное задание SageMaker , работающее на экземпляре графического процессора. Это предпочтительный вариант для обучения, поскольку метаданные обучения (путь к данным и модели, гиперпараметры, спецификация кластера и т. Д. c) сохраняются в хранилище метаданных SageMaker, журналы и метрики хранятся в Cloudwatch, а экземпляр автоматически отключается в конец обучения. Разработка на небольшом экземпляре ЦП и запуск учебных задач с использованием SageMaker Training API поможет вам максимально использовать свой бюджет, сохраняя при этом метаданные и артефакты всех ваших экспериментов. Вы можете увидеть здесь хорошо документированный пример TensorFlow

...