Я бы предпочел пойти с конвейером данных AWS и добавить шаги для выполнения любых операций до и после выполнения задания ETL, таких как запуск сценариев оболочки, любой hql и т. Д.
AWS Glue работает на движке Spark и обладает другими функциями, такими как конечная точка разработки клея AWS, Crawler, Catalog, планировщики заданий. Я думаю, что AWS Glue был бы идеальным вариантом, если вы начинаете с нуля или планируете перенести ETL на AWS Glue. Пожалуйста, см. Здесь для сравнения цен .
Трубопровод AWS: Подробнее о трубопроводе AWS
FAQ по AWS Glue: Подробная информация о поддерживаемых языках для AWS Glue
Обратите внимание, в соответствии с AWS Glue FAQ:
В: Какой язык программирования я могу использовать для написания своего кода ETL для AWS?
Клей
Вы можете использовать Scala или Python.
Редактировать: Как прокомментировал Джон Скотт, Apache Airflow - еще одна опция для планирования заданий, но я ее не использовал.