Question

Для задания, выполняемого на данных из корзины S3 в формате паркета, существует два способа:

Создать искатель для создания таблицы схемы, используйте glueContext.create_dynamic_frame.from_catalog(dbname, tablename), чтобысформировать динамический фрейм внутри задания Glue.
Чтение непосредственно из S3 с использованием glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")

Поскольку моя схема данных НЕ изменится во времениЕсть ли какие-либо преимущества (с точки зрения производительности или еще) для использования Crawler?Зачем мне в этом случае гусеничный ход?

Yuriy Bondaruk · Answer 1 · 22 ноября 2018

Если ваши данные не разбиты на разделы или вы не хотите использовать функция предиката-pushdown , тогда вам не нужно запускать Crawler.

Однако, если он разбит на разделы и вы хотите иметь возможность частично загружать данные с помощью предиката-pushdown, тогда новые разделы должны быть зарегистрированы в каталоге данных, и Crawler - один из самых простых способов сделать это (есть альтернатив хотя)

AWS Glue - с помощью гусеничных машин или без

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

AWS Glue - с помощью гусеничных машин или без

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы