AWS Athena разбивает данные - PullRequest
0 голосов
/ 06 июля 2018

У меня есть файл tsv в s3, и я оцениваю размер сканированного запроса Athena с разделением и без него. Запрос работает без каких-либо разделов и сканирования полных данных. Когда я пытаюсь создать раздел, я не могу загрузить раздел. Документы не очень помогли понять, как загрузить раздел для данных tsv.

Пример данных S3:

column1 column2 US  column4
column1 column2 US  column4
column1 column2 DE  column4
column1 column2 DE  column4
column1 column2 US  column4
column1 column2 US  column4
column1 column2 IT  column4
column1 column2 IT  column4

Я хочу разделить на 3-й столбец, так как именно к нему я буду часто обращаться. Запуск MSCK REPAIR TABLE, очевидно, не загружал разделы. Как этого добиться?

1 Ответ

0 голосов
/ 06 июля 2018

В Афинах разделы должны быть разделены на папки S3. Разделение по произвольным столбцам данных не поддерживается.

Таким образом, чтобы использовать разделы, вы можете установить необходимый столбец в качестве пары имя / значение в качестве имени папки или явно отобразить папки в разделы.

Оба сценария объяснены здесь:

https://docs.aws.amazon.com/athena/latest/ug/partitions.html

...