Используйте AWS Афина с Dynami c Поля / без схемы - PullRequest
0 голосов
/ 28 марта 2020

Мы хотим использовать AWS Афина для аналитики и сегментации, наша проблема в том, что наши данные не имеют схемы, строки отличаются с некоторыми похожими столбцами.

Возможно ли создать таблицу без определения всех столбцов ?

Когда мы запрашиваем, мы знаем тип (string / int) каждого столбца, поэтому, если есть способ определить запрос, это будет здорово.

Мы можем структурировать данные в В любом случае необходимо поддерживать без схемы и в любом формате: CSV / JSON.

Является ли Афина опцией для использования без схемы?

1 Ответ

0 голосов
/ 30 марта 2020

Существует множество способов использования Athena в схемах без схемы, и вам необходимо предоставить конкретные c примеры сценариев ios, которые вы хотите поддерживать более эффективно, поскольку в Athena вы платите на основе данных, которые вы сканируете и оптимизируете свои данные, чтобы свести к минимуму сканирование данных, очень важны для того, чтобы сделать их полезным инструментом в масштабе.

Самый простой способ начать работу с инструментом, а также типы запросов, которые вы можете выполнять на ваших данных, определить таблицу с одним столбцом («строка»), а затем выполнить синтаксический анализ данных, которые вы хотите, используя строковые функции или JSON функции в строках в формате JSON.

Вы получите хорошую производительность по времени, если у вас есть несколько файлов, но это будет дорого, так как вам нужно сканировать все свои данные для каждого запроса. Я предлагаю вам начать с этих запросов, чтобы определить ваши требования. По мере роста использования начните оптимизировать варианты использования с помощью команд CTAS (Создать таблицу как выбор), которые будут генерировать паркетные версии исходных необработанных данных для поддержки более популярного (и дорогостоящего) использования. случаев.

Вы можете прочитать мой блог , в котором описывается стратегия и тактика облачной среды с использованием Athena и других AWS инструментов вокруг нее.

...