Как запустить экземпляр EC2 и запустить задачу по требованию - PullRequest
0 голосов
/ 18 января 2019

Мы разрабатываем приложение глубокого обучения на AWS. Автоматизация обучения модели довольно сложна. Первым шагом является подготовка данных для обучения, которое включает в себя создание огромного трехмерного массива (> 100 ГБ) из сотен тысяч небольших двумерных массивов. Небольшие массивы сохраняются в корзине S3 в виде маленьких файлов. После преобразования большой массив NumPy будет сохранен в другой сегмент S3. Учебный скрипт подхватит большой массив трехмерных фигур перед тренировкой. Поскольку лямбда-функция имеет ограничение по объему памяти, нам придется запускать экземпляр EC2 вручную.

Интересно, как лучше запускать экземпляр EC2 из внешнего источника и запускать на нем скрипт python для загрузки и преобразования данных?

Весь рабочий процесс, вероятно, будет автоматизирован с использованием функции шага AWS.

Ответы [ 3 ]

0 голосов
/ 19 января 2019

Я бы выбрал самое простое решение, так как это не такая сложная задача (с архитектурной точки зрения).

Сконфигурируйте событие S3 для корзины, в которой вы храните новый большой трехмерный массив,запуск лямбда-функции после того, как объект был помещен в корзину (вы можете быть более детализированным и запускать его на основе префикса, если вы храните все / разные данные в одном и том же контейнере).

Внутри этой лямбда-функциивы просто запускаете новый экземпляр EC2 и передаете ему скрипт user data, который загрузит необходимые файлы и запустит задачу (это можно сделать с помощью boto3 для Python).

Использование CloudFormation в этом случае было бы излишним (мое мнение).

0 голосов
/ 19 января 2019

вы рассматривали возможность использования Amazon SageMaker? Легко настроить повторяющиеся учебные задания. Я хотел бы услышать ваши отзывы и ответить на любые вопросы.

0 голосов
/ 18 января 2019

Вы можете использовать Набор конфигурации в шаблоне формирования облака, чтобы определить шаги, на которых вы можете выполнять копии или запускать сценарии или команды при запуске вашего ресурса EC2.Вы даже можете временно запустить его, чтобы он отключился после завершения всех операций.

Затем вы можете использовать скрипт или лямбда-функцию для выполнения стека облачной информации

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...