Последовательные сценарии, обусловленные существованием файла S3 - PullRequest
0 голосов
/ 16 января 2019

У меня есть три сценария Python. Предполагается, что они выполняются последовательно, но в разных средах.

  • script1: с помощью кластера AWS EMR сгенерируйте обучающий и тестовый набор данных и сохраните его на S3.
  • script2: обучить модель машинного обучения, используя данные обучения, и сохранить обученную модель на S3. (Выполняется на экземпляре графического процессора AWS)
  • script3: запустить оценку на основе данных теста и обученной модели и сохранить результат на S3. (Выполняется на экземпляре графического процессора AWS)

Я хотел бы запустить все эти сценарии автоматически, не выполняя их один за другим. Мои вопросы:

  • Существуют ли передовые практики для обработки условий существования файла S3? (ложная терпимость и т. д.)
  • Как запустить запуск экземпляров графического процессора и кластеров EMR?

Существуют ли хорошие способы или инструменты для обработки такого рода процессов?

1 Ответ

0 голосов
/ 16 января 2019

Взгляните на https://docs.aws.amazon.com/AmazonS3/latest/dev/NotificationHowTo.html

Вы можете настроить уведомление, когда в корзине происходит событие, например, при создании объекта.

Вы можете прикрепить это уведомление непосредственно к лямбда-функции AWS, которая, если будет установлена ​​правильная роль, может создать кластер EMR и все другие ресурсы, доступные в AWS SDK.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...