Question

У меня есть общий вопрос о AWS Glue и его сканерах. У меня есть несколько потоков данных в сегменты S3, и я использую AWS Athena для доступа к ним как к внешним таблицам в красном смещении. Таблицы разделены по часам, некоторые сканеры клея обновляют разделы и структуру таблицы каждый час.

Проблема в том, что сканеры занимают все больше и больше времени, и когда-нибудь они не закончат менее чем за час. Существуют ли какие-либо настройки для ускорения этого процесса или какая-то правильная альтернатива сканерам в AWS Glue?

Yuriy Bondaruk · Answer 1 · 30 октября 2018

К сожалению, у Glue Crawlers нет параметров конфигурации для настройки производительности. Тем не менее, насколько мне известно, команда AWS Glue должна выпустить функцию, которая значительно повышает производительность сканеров (хотя и не знаю дату).

Как правило, существует несколько способов регистрации новых разделов в каталоге данных:

Самый эффективный способ - добавить раздел вручную (3 или 4). Поэтому, если вы знаете, когда и какие новые разделы должны быть зарегистрированы, вы можете настроить лямбда-функцию для вызова Athena или Glue API. Сама лямбда может быть вызвана событием SNS или CloudWatch.

Клеевые гусеницы AWS и большие столы хранятся в S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Клеевые гусеницы AWS и большие столы хранятся в S3

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы