Каковы наилучшие варианты использования для aws клеевых python работ по оболочке по сравнению с искровыми работами? - PullRequest
0 голосов
/ 07 февраля 2020

Использовали aws клей python командных оболочек для создания простых заданий etl для данных, для работы с искрой, только один или два раза использовали для преобразования в формат или c или для выполнения искры sql на JDB C данные. Так интересно, какие из них лучше / типичнее для каждого из них? В каком-то документе говорится, что python работа с оболочкой подходит для простых работ, тогда как поиск для более сложных работ - это правильно? Не могли бы вы поделиться большим опытом по этому вопросу?

Большое спасибо

1 Ответ

2 голосов
/ 07 февраля 2020

Каковы наилучшие / типичные варианты использования для каждого из них? В некоторых документах говорится, что python работа с оболочкой подходит для простых работ, тогда как поиск для более сложных работ - это правильно?

AWS Клей - это средство / служба быстрой разработки для заданий ETL, предоставляемых AWS. ИМХО, это очень быстрая разработка, если вы знаете, что нужно сделать в вашем конвейере etl.

  • Клей имеет такие компоненты, как Discover, Develop, Deploy. В Discover ... automati c сканирование (запуск или планирование гусеничного устройства несколько раз) - это важная особенность, которая отличается от других наблюдаемых мной инструментов.

  • Клей Похоже, что функция интеграции для подключения к AWS службам экосистемы (где вам нужно это сделать)

Типичный вариант использования AWS Клей может быть ...
1) Загрузка данных из домов Dataware.
2) Создание озера данных на amazon s3.

См. Эту презентацию AWS для получения дополнительной информации.

Custom Spark Job также может делать то же самое, но ее необходимо разрабатывать с нуля. и у него нет встроенной функции автоматического сканирования c.

Но если вы разрабатываете искровое задание для etl, у вас есть мелкозернистый контроль для выполнения сложных заданий.

Оба клея, искра имеет одинаковую цель для ETL. AFAIK, клей для простых работ, таких как загрузка из источника в пункт назначения. Где, как Spark, работа может выполнять самые разнообразные преобразования контролируемым образом.

Вывод: Для простых случаев использования ETL (что можно сделать без большого опыта разработки) go с помощью Glue. Для настроенного ETL, который имеет много зависимостей / преобразований go с заданием на искру.

...