Каковы наилучшие / типичные варианты использования для каждого из них? В некоторых документах говорится, что python работа с оболочкой подходит для простых работ, тогда как поиск для более сложных работ - это правильно?
AWS Клей - это средство / служба быстрой разработки для заданий ETL, предоставляемых AWS. ИМХО, это очень быстрая разработка, если вы знаете, что нужно сделать в вашем конвейере etl.
Клей имеет такие компоненты, как Discover, Develop, Deploy. В Discover ... automati c сканирование (запуск или планирование гусеничного устройства несколько раз) - это важная особенность, которая отличается от других наблюдаемых мной инструментов.
Клей Похоже, что функция интеграции для подключения к AWS службам экосистемы (где вам нужно это сделать)
Типичный вариант использования AWS Клей может быть ...
1) Загрузка данных из домов Dataware.
2) Создание озера данных на amazon s3.
См. Эту презентацию AWS для получения дополнительной информации.
Custom Spark Job также может делать то же самое, но ее необходимо разрабатывать с нуля. и у него нет встроенной функции автоматического сканирования c.
Но если вы разрабатываете искровое задание для etl, у вас есть мелкозернистый контроль для выполнения сложных заданий.
Оба клея, искра имеет одинаковую цель для ETL. AFAIK, клей для простых работ, таких как загрузка из источника в пункт назначения. Где, как Spark, работа может выполнять самые разнообразные преобразования контролируемым образом.
Вывод: Для простых случаев использования ETL (что можно сделать без большого опыта разработки) go с помощью Glue. Для настроенного ETL, который имеет много зависимостей / преобразований go с заданием на искру.