У меня есть три сценария Python. Предполагается, что они выполняются последовательно, но в разных средах.
- script1: с помощью кластера AWS EMR сгенерируйте обучающий и тестовый набор данных и сохраните его на S3.
- script2: обучить модель машинного обучения, используя данные обучения, и сохранить обученную модель на S3. (Выполняется на экземпляре графического процессора AWS)
- script3: запустить оценку на основе данных теста и обученной модели и сохранить результат на S3. (Выполняется на экземпляре графического процессора AWS)
Я хотел бы запустить все эти сценарии автоматически, не выполняя их один за другим. Мои вопросы:
- Существуют ли передовые практики для обработки условий существования файла S3? (ложная терпимость и т. д.)
- Как запустить запуск экземпляров графического процессора и кластеров EMR?
Существуют ли хорошие способы или инструменты для обработки такого рода процессов?