AWS Glue - с помощью гусеничных машин или без - PullRequest
0 голосов
/ 22 ноября 2018

Для задания, выполняемого на данных из корзины S3 в формате паркета, существует два способа:

  1. Создать искатель для создания таблицы схемы, используйте glueContext.create_dynamic_frame.from_catalog(dbname, tablename), чтобысформировать динамический фрейм внутри задания Glue.

  2. Чтение непосредственно из S3 с использованием glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")

Поскольку моя схема данных НЕ изменится во времениЕсть ли какие-либо преимущества (с точки зрения производительности или еще) для использования Crawler?Зачем мне в этом случае гусеничный ход?

1 Ответ

0 голосов
/ 22 ноября 2018

Если ваши данные не разбиты на разделы или вы не хотите использовать функция предиката-pushdown , тогда вам не нужно запускать Crawler.

Однако, если он разбит на разделы и вы хотите иметь возможность частично загружать данные с помощью предиката-pushdown, тогда новые разделы должны быть зарегистрированы в каталоге данных, и Crawler - один из самых простых способов сделать это (есть альтернатив хотя)

...