Использование смешанных форматов паркета и JSON с AWS Athena - PullRequest
0 голосов
/ 10 сентября 2018

У меня есть события, закодированные в JSON. Каждое событие имеет вложенную в структуру объекта числовой идентификатор, который указывает тип события.

Я хотел бы хранить свои события в S3, используя паркет со схемой из двух столбцов, типом события и необработанным JSON. Таким образом, всякий раз, когда мне нужно сделать запрос, который использует только определенные типы событий, мне не нужно читать каждое отдельное событие, чтобы узнать его тип.

Чтобы было ясно, я хочу использовать паркет, чтобы Афина могла быстро извлечь интересующие меня события, прочитав первый столбец, а затем выполнить запрос, используя содержимое второго столбца, необработанные события JSON.

Возможно ли это? Как? Если нет, какие-либо предложения относительно того, как я могу сохранить ресурсы, получая доступ только к событиям, которые я хочу включить в свой запрос?

1 Ответ

0 голосов
/ 27 сентября 2018

То, что вам нужно, это организовать в S3 корзину по типу события и использовать его по разделенной таблице, определенной в Афине. Подробнее о разделении Афины здесь .

...