Интеллектуальный отбор проб с помощью AWS Glue Crawlers - PullRequest
0 голосов
/ 21 октября 2019

У меня есть пара столов на моем ведре s3. Таблицы большие как по объему памяти, так и по количеству файлов, они хранятся в формате JSON (я знаю, что он неоптимальный) и имеют много разделов.

Теперь я хочу включить AWS Glue Data Catalog и AWSКлеевые сканеры, однако я в ужасе от цены сканеров, проходящих через все данные.

Схема не меняется часто, поэтому нет необходимости просматривать все файлы на S3.

Пройдут ли сканеры по умолчанию все файлы? Можно ли настроить более разумную стратегию выборки, которая бы смотрела внутрь только некоторых файлов, а не всех?

1 Ответ

1 голос
/ 22 октября 2019

В зависимости от структуры вашего сегмента, возможно, вы могли бы просто использовать пути исключения и указать сканерам определенные префиксы, которые вы хотите сканировать. Если это разделение в стиле улья, то вы можете использовать Athena для выполнения таблицы восстановления msck для добавления разделов. В качестве альтернативы вы можете создать таблицы вручную в Athena и запустить msck repair, что может занять очень много времени, если у вас много разделов, а файлы огромны, как вы упомянули.

...