AWS Glue против AWS EMR - перезаписать файлы S3 в задании Spark - PullRequest
0 голосов
/ 29 апреля 2018

У меня есть задание Spark, которое выполняется на EMR и считывает набор данных из S3 (вложенный файл json), объединяет его с другим набором данных и явно перезаписывает несколько файлов S3.

Итак, это не стандартный сценарий использования ETL, но может ли AWS Glue обеспечивать такую ​​же функциональность? Если да, клей дешевле, чем EMR?

1 Ответ

0 голосов
/ 30 апреля 2018

Да, приведенный выше вариант использования также возможен с Glue, думаю, что вы можете сгладить вложенный JSON-файл и продолжить процесс объединения с другими наборами данных, выполнить обратную запись в S3.

Что касается сравнения затрат, обратите внимание, что AWS Glue работает немного дороже, чем обычная EMR. Это связано с тем, что Glue подразумевает, что AWS не требует обслуживания и управляется AWS, помимо его функций Data-catalog, Dev-endpoint, ETL-генераторов кода и т. Д. Пожалуйста, обратитесь здесь для сравнения стоимости для клея и EMR.

...