Клеевые гусеницы AWS и большие столы хранятся в S3 - PullRequest
0 голосов
/ 30 октября 2018

У меня есть общий вопрос о AWS Glue и его сканерах. У меня есть несколько потоков данных в сегменты S3, и я использую AWS Athena для доступа к ним как к внешним таблицам в красном смещении. Таблицы разделены по часам, некоторые сканеры клея обновляют разделы и структуру таблицы каждый час.

Проблема в том, что сканеры занимают все больше и больше времени, и когда-нибудь они не закончат менее чем за час. Существуют ли какие-либо настройки для ускорения этого процесса или какая-то правильная альтернатива сканерам в AWS Glue?

1 Ответ

0 голосов
/ 30 октября 2018

К сожалению, у Glue Crawlers нет параметров конфигурации для настройки производительности. Тем не менее, насколько мне известно, команда AWS Glue должна выпустить функцию, которая значительно повышает производительность сканеров (хотя и не знаю дату).

Как правило, существует несколько способов регистрации новых разделов в каталоге данных:

  1. Запустите гусеничный клей
  2. Выполнить MSCK REPAIR TABLE <table> Запрос Афины
  3. Добавление раздела через Athena
  4. Добавление раздела через Glue API

Самый эффективный способ - добавить раздел вручную (3 или 4). Поэтому, если вы знаете, когда и какие новые разделы должны быть зарегистрированы, вы можете настроить лямбда-функцию для вызова Athena или Glue API. Сама лямбда может быть вызвана событием SNS или CloudWatch.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...