Как использовать несколько форматов файлов в Афине - PullRequest
0 голосов
/ 31 октября 2018

У меня есть несколько файлов в разных форматах (csv, json и parquet) в каталоге s3 bucket (все файлы находятся в одном каталоге). Все файлы имеют одинаковую структуру. Как я могу использовать эти файлы для создания таблицы Athena?

Есть ли у нас условия для предоставления другого Serde при создании таблицы?

Редактировать: таблица создается, но при предварительном просмотре таблицы нет данных.

1 Ответ

0 голосов
/ 31 октября 2018

Есть несколько вариантов, но, на мой взгляд, лучше создать отдельные пути (папки) для каждого типа файлов и запустить Glue Crawler для каждого из них. У вас будет несколько таблиц, но вы можете объединить их, используя представления Athena, или вы можете преобразовать эти файлы в один формат, используя Glue (например).

Если вы хотите, чтобы файлы находились в одной папке, вы можете использовать шаблоны include и exclude в Glue Crawler. Также в этом случае вам придется создать отдельную таблицу для каждого типа файла.

https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html

...