Как мне запланировать записную книжку ipnyb в Sagemaker с помощью AWS lambda? - PullRequest
0 голосов
/ 02 июля 2019

Мне нужно запланировать, чтобы AWS Lambda открывала / запускала блокнот Jupyter, который есть в Sagemaker, для создания файла csv раз в день.

Я уже создал свой экземпляр блокнота (назовем его Model_v1) иКонфигурация жизненного цикла необходима внутри Sagemaker.Я могу запустить экземпляр, запустить код (R) внутри Блокнота, и код записывает файл CSV, который мне требуется.

Я прочитал много постов о том, как использовать Sagemaker с Lambda, но я неформально используя «учебное задание» или «модель» / конечную точку и т. д. и т. д. Я буквально просто хочу, чтобы лямбда: 1) запустила экземпляр Notebook 2) запустила код .ipnyb, который генерирует CSV

Если есть более простой способЗаставьте Sagemaker запускать этот скрипт один раз в день с помощью другого инструмента (вместо лямбды), более чем счастлив изменить!

1 Ответ

0 голосов
/ 02 июля 2019

Вы можете запускать ноутбук программно с помощью papermill. papermill-lambda показывает, как перевести зависимость бумажной фабрики в лямбду, но я никогда не пробовал. Более чистая настройка заключается в инкапсуляции науки о модели в докер-контейнер, как это делается в этом руководстве по SageMaker R . Затем вы можете использовать лямбда-функцию, запускающую учебное задание из лямбда-совместимого SDK по вашему выбору (например, вызов boto3 create_training_job , который по умолчанию устанавливается в лямбда-выражении).

Обратите внимание, что запись модели в докер-контейнер, совместимый с sagemaker, позволяет вам воспользоваться всеми преимуществами SageMaker на выбранном вами языке - здесь с R, включая, но не ограничиваясь :

  • Обучение работе с различными типами оборудования и конфигурации сети с несколькими SDK, включая, помимо прочего, python , CLI , js , PHP , go , ruby ​​, java )
  • Байесовский поиск гиперпараметров
  • Собственная регистрация использования оборудования и вывода алгоритма, дополнительная метрическая панель с регулярными выражениями
  • Развертывание в один клик на управляемую конечную точку в реальном времени, опционально зону множественной доступности и автоматическое масштабирование
  • Собственное постоянство метаданных (среди прочего, гиперпараметры, путь данных, артефакт, конфигурация и продолжительность обучения) и поиск.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...