У меня есть пара столов на моем ведре s3. Таблицы большие как по объему памяти, так и по количеству файлов, они хранятся в формате JSON (я знаю, что он неоптимальный) и имеют много разделов.
Теперь я хочу включить AWS Glue Data Catalog и AWSКлеевые сканеры, однако я в ужасе от цены сканеров, проходящих через все данные.
Схема не меняется часто, поэтому нет необходимости просматривать все файлы на S3.
Пройдут ли сканеры по умолчанию все файлы? Можно ли настроить более разумную стратегию выборки, которая бы смотрела внутрь только некоторых файлов, а не всех?