какая польза от периодического планирования гусеничного робота AWS. Одного запуска кажется достаточно - PullRequest
0 голосов
/ 10 сентября 2018

Я создал таблицу клей AWS на основе содержимого корзины S3. Это позволяет мне запрашивать данные в этой корзине S3 с помощью AWS Athena. Я определил сканер AWS Glue и запустил его один раз, чтобы автоматически определить схему данных. Это все работает хорошо.

После этого все вновь загруженные данные в корзину S3 хорошо отражаются в таблице. (делая select count(*) ... в Афине.

Зачем мне тогда периодически запускать (т.е. планировать) AWS Glue Crawler? В конце концов, как уже говорилось, обновления в корзине s3, похоже, правильно отражены в таблице. Обновлять ли статистику таблицы, чтобы оптимизировать планировщик запросов или что-то в этом роде?

1 Ответ

0 голосов
/ 11 сентября 2018

Crawler необходим для регистрации новых разделов данных в каталоге данных.Например, ваши данные находятся в папке / data и разбиты по дате (/data/year=2018/month=9/day=11/<data-files>).Каждый день файлы поступают в новую папку (day=12, day=13 и т. Д.).Чтобы новые данные были доступны для запросов, эти разделы должны быть зарегистрированы в каталоге данных, что можно сделать, запустив искатель.Альтернативное решение - запустить 'MSCK REPAIR TABLE {table-name}' * в Афине.

Кроме того, этот сканер может обнаружить изменение в схеме и выполнить соответствующие действия в зависимости от вашей конфигурации..

...