Рекомендация типа экземпляра Sagemaker Notebook - PullRequest
1 голос
/ 07 ноября 2019

Я буду использовать мл модели на довольно большом наборе данных. Это около 15 ГБ, с 200 столбцами и 4,3 миллиона строк. Мне интересно, какой тип экземпляра Notebook лучше всего подходит для такого набора данных в AWS Sagemaker.

1 Ответ

3 голосов
/ 07 ноября 2019

Для выбора типа записной книжки SageMaker:

Планируете ли вы всю предварительную обработку ваших данных в памяти на ноутбуке, или вы планируете организовать ETL свнешние услуги?

Если вы планируете загрузить набор данных в память на экземпляре ноутбука для исследования / предварительной обработки, основным узким местом здесь будет обеспечение того, что у экземпляра достаточно памяти для вашего набора данных. Для этого потребуется как минимум 16-гигабайтные типы ( .xlarge ) (полный список типов экземпляров ML доступен здесь ). Кроме того, в зависимости от того, насколько интенсивной является ваша предварительная обработка и желаемое время завершения предварительной обработки, вы можете выбрать оптимизированный для вычисления экземпляр ( c4, c5 ), чтобы ускорить это.


Для учебной работы, а именно:

С помощью Amazon SageMaker SDK ваши тренировочные данные будут загружены и распределены в учебный кластер, что позволит полностью выполнить вашу учебную работуотдельно от экземпляра, на котором работает ваш ноутбук.

Определение идеального типа экземпляра для обучения будет зависеть от того, привязан ли ваш алгоритм выбора / учебного задания к памяти, процессору или вводу-выводу. Поскольку ваш набор данных, вероятно, будет загружен в ваш обучающий кластер из S3, экземпляр, который вы выберете для своего размещенного ноутбука, не будет влиять на скорость вашей учебной работы.


В целом: Что касается ноутбуков SageMaker, то лучше всего использовать ноутбук как «кукловод» или оркестратор, который обращается к внешним службам (AWS Glue или Amazon EMR для предварительной обработки, SageMaker для обучения, S3 для хранения и т. Д.). Лучше всего рассматривать их как эфемерные формы вычислений / хранилищ для построения и запуска вашего экспериментального конвейера.

Это позволит вам более тесно сочетать вычислительные ресурсы, хранилища и хостинг ресурсов / служб с требованиями вашегорабочая нагрузка, в конечном итоге приводящая к наилучшей отдаче от затраченных средств, поскольку вы не платите за скрытые или неиспользованные ресурсы.


...