AWS Glue Crawler необходимо создать одну таблицу из множества файлов с одинаковыми схемами - PullRequest
0 голосов
/ 23 января 2019

У нас очень большое количество папок и файлов в S3, все в одной определенной папке, и мы хотим сканировать все CSV-файлы, а затем запрашивать их из одной таблицы в Афинах.Все файлы CSV имеют одинаковую схему.Проблема заключается в том, что сканер генерирует таблицу для каждого файла вместо одной таблицы.Конфигурации сканера имеют опцию флажка «Создать отдельную схему для каждого пути S3», но это, похоже, ничего не делает.

Возможно ли то, что мне нужно?Спасибо.

1 Ответ

0 голосов
/ 07 июня 2019

Клеевые гусеницы претендуют на решение многих проблем, но на самом деле решают мало. Если вы немного выходите за рамки того, для чего они предназначены, вам не повезло. Может быть, есть способ настроить его так, чтобы он делал то, что вы хотите, но, по моему опыту, попытка заставить сканеры Glue выполнять действия, которые не полностью соответствуют ему, не стоит усилий.

Похоже, у вас есть хорошее представление о том, какова схема ваших данных. В этом случае гусеничные клещи также обеспечивают очень небольшую ценность. Вероятно, у вас есть лучшее представление о том, как должна выглядеть схема, чем когда-либо сможет выяснить Glue.

Я предлагаю вам вручную создать таблицу и написать сценарий одноразового использования, в котором перечислены все расположения разделов на S3, которые вы хотите включить в таблицу, и сгенерировать вызовы ALTER TABLE ADD PARTITION … SQL или Glue API для добавления этих разделов в стол.

Чтобы держать таблицу в актуальном состоянии при добавлении новых местоположений разделов, взгляните на этот ответ для получения рекомендаций: https://stackoverflow.com/a/56439429/1109

...